https://www.cnblogs.com/futurehau/p/6184585.html
1. CTR预估的流程
数据 -》 预处理 -》特征抽取 -》模型训练 -》后处理
特征决定了达到好的评价指标的上限,模型决定了接近这个上限的程度。
2. 数据预处理
label匹配:展示日志和点击日志做一个join
采样: 负采样(广告点击率很低,随机丢弃一部分负样本
组合相关信息: 相关信息需要到别的文件中去找,所以需要组合相关信息。比如:如果需要查看某个query_id代表的是什么,需要去id号对应的txt中查询: cat queryid_tokensid.txt | awk '$1 == 14092{print $0}' | head
每次都这样操作会比较麻烦,所以需要直接把这些信息组合到训练数据中去。这就是数据预处理里面的特征组合:Join