【项目】搜索广告CTR预估（二）

2022-10-12 07:27:22

项目介绍

给定查询和用户信息后预测广告点击率

      搜索广告是近年来互联网的主流营收来源之一。在搜索广告背后，一个关键技术就是点击率预测-----pCTR(predict the click-through rate)，由于搜索广告背后的经济模型（economic model ）需要pCTR的值来对广告排名及对点击定价。本次作业提供的训练实例源于腾讯搜索引擎的会话日志(sessions logs), soso.com，要求学员们精准预测测试实例中的广告点击率。 

训练数据文件TRAINING DATA FILE

      训练数据文件是一个文本文件，里面的每一行都是一个训练实例（源于搜索会话日志消息）。 为了理解训练数据，下面先来看看搜索会话的描述。搜索会话是用户和搜索引擎间的交互，它由这几部分构成： 用户，用户发起的查询，一些搜索引擎返回并展示给用户的广告，用户点击过的0条或多条广告。为了更清楚地理解搜索会话，这里先介绍下术语：在一个会话中展示的广告数量被称为深度（depth）， 广告在展示列表中的序号称为广告的位置(position)。广告在展示时，会展示为一条短的文本，称之为标题（title），标题后跟着一条略长些的文本和一个URL，分别叫做描述(description)和展示链接（display URL）。

       我们将每个会话划分为多个实例。每个实例描述在一种特定设置（比如：具有一定深度及位置值）下展示的一条广告。为了减少数据集的大小，我们利用一致的user id, ad id, query来整理实例。因此，每个实例至少包含如下信息：

UserID

AdID

Query

Depth

Position

Impression

      搜索会话的数量，在搜索会话中广告（AdID）展示给了发起查询(query)的用户（UserID）。

Click

      在上述展示中，用户（UserID）点击广告（AdID）的次数。

此外， 训练数据，验证数据及测试数据包含了更多的信息。原因是每条广告及每个用户拥有一些额外的属性。我们将一部分额外的属性包含进了训练实例，验证实例及测试实例中，并将其他属性放到了单独的数据文件中， 这些数据文件可以利用实例中的ids来编排索引。如果想对这类数据文件了解更多，请参考ADDITIONAL DATA FILES部分。

最后，在包括了额外特征之后，每个训练实例是一行数据（如下），这行数据中的字段由TAB字符分割：

1. Click： 前文已描述。

2. DisplayURL：广告的一个属性。

     该URL与广告的title（标题）及description（描述）一起展示，通常是广告落地页的短链(shortened url)。 在数据文件中存放了该URL的hash值。

3. AdID: 前文已描述。

4. AdvertiserID ： 广告的属性。

      一些广告商会持续优化其广告，因此相比其他的广告商，他们的广告标题和描述会更具魅力。

5. Depth：会话的属性，前文已描述。

6. Position： 会话中广告的属性，前文已描述。

7. QueryID： 查询的id。

      该id是从0开始的整数。它是数据文件'queryid_tokensid.txt'的key。

8.KeywordID : 广告的属性。

      这是 'purchasedkeyword_tokensid.txt'的key。

9.TitleID: 广告的属性。

      这是 'titleid_tokensid.txt'的key。

10.DescriptionID：广告的属性。

      这是'descriptionid_tokensid.txt'的key。

11. UserID

      这是 'userid_profile.txt'的key。当我们无法确定一个用户时，UserID为0。

附加的数据文件ADDITIONAL DATA FILES

这里还有前面提到过的5个附加的数据文件：

1. queryid_tokensid.txt

2. purchasedkeywordid_tokensid.txt

3. titleid_tokensid.txt

4. descriptionid_tokensid.txt

5. userid_profile.txt

      前4个文件每一行将id映射为一个记号列表，在query（查询）, keyword（关键字）, ad title（广告标题）及ad description（广告描述）中都是如此。 在每一行中，TAB字符将id及其他记号集分隔开。一个记号最基本可以是自然语言中的一个词。为了匿名，每个记号以hash后的值来表示。 字段以 ‘|’分割。

‘userid_profile.txt’ 文件的每一行由UserID, Gender, 和 Age组成，用TAB字符来分隔。注意，并非训练集和测试集中的每个UserID都会出现在‘userid_profile.txt’文件中。每个字段描述如下：

1. Gender:

'1' for male(男), '2' for female（女）, and '0' for unknown（未知）.

2. Age:

'1' for (0, 12], '2' for (12, 18], '3' for (18, 24], '4' for (24, 30], '5'

for (30, 40], and '6' for greater than 40（6代表大于40）.

TESTING DATASET（测试数据集）

       除了广告展示及广告点击的数量不同外，测试数据集与训练数据集的格式一致。 广告展示及广告点击次数用于计算先验的点击率（empirical CTR）。 训练集的子集用于在leaderboard上对提交或更新的结果进行排名。测试集用于选举最终冠军。用于生成训练集的日志与之前生成训练集的日志相同。

1. CTR预估的流程

数据 -》预处理 -》特征抽取 -》模型训练 -》后处理

特征决定了达到好的评价指标的上限，模型决定了接近这个上限的程度。

2. 数据预处理

label匹配：展示日志和点击日志做一个join

采样: 负采样（广告点击率很低，随机丢弃一部分负样本

组合相关信息: 相关信息需要到别的文件中去找，所以需要组合相关信息。比如：如果需要查看某个query_id代表的是什么，需要去id号对应的txt中查询: cat queryid_tokensid.txt | awk '$1 == 14092{print $0}' | head

每次都这样操作会比较麻烦，所以需要直接把这些信息组合到训练数据中去。这就是数据预处理里面的特征组合：Join

2.1 join的shell命令是：

先对两个文件按照他们要join的对象进行排序：然后进行join。这个join的key会被放到文件的第一列。

awk详解：http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html

sort详解：http://www.2cto.com/os/201304/203309.html

join详解：http://www.cnblogs.com/agilework/archive/2012/04/18/2454877.html

 先sort

  sort -t $'\t' -k 7,7  train >train_sort

 sort -t $'\t' -k 1,1 queryid_tokensid.txt > queryid_sort

 然后join

 join -t $'\t' -1 7 -2 1 -a 1 train_sort queryid_sort >train1

join之后看一下多少行，来验证是否join进去了。发现从11列变成了12列。代码如下：

 head train | awk '{print NF} 显示11列

 head train1 | awk '{print NF}显示12列

写了一个脚本来进行这几部操作，因为key列会跑到第一列，所以做了一下调整。join代码如下：

 #! /bin/bash

 sort -t $'\t' -k "$2,$2" $1 >t1

 sort -t $'\t' -k "$4,$4" $3 >t2

 join -t $'\t' -1 $2 -2 $4 t1 t2 -a 1|awk -v n=$2 '{

         s=$2;

         for(i=3;i<=n;++i){

                 s=s"\t"$i

         }

         s=s"\t"$1;

         for(i=n+1;i<=NF;++i){

                 s=s"\t"$i

         }

         print s

 }'

 #rm -f t1 t2

使用join.sh对每一个文件进行join，命令如下：

bash join.sh train 7 queryid_tokensid.txt 1 > train1

bash join.sh train1 8 purchasedkeywordid_tokensid.txt  1 > train2

bash join.sh train2 9 titleid_tokensid.txt  1 > train3

bash join.sh train2 10 descriptionid_tokensid.txt  1 > train4

bash join.sh train4 11 userid_profile.txt  1 > train5

2.2 负采样代码

awk 'BEGIN{srand()}{if($1==1)print $0;if($1==0)if(rand() > 0.5)print $0}' train_combined > t

数一下行数：

wc -l t

wc -l train5

2.3 shuffle

洗牌一下。把train和validate数据给分出来：

这里的数据把train里面的数据分成7:3的训练数据和验证数据。

数据说明：train是用来调特征的。validate是用来做验证的，也就是把那个train_data所出来的weights来算一下validate。

 clear

 [s-44@CH-46 mydata2]$ sort -R train_combined > train_shuffle

head -n 700000 train_shuffle > train_data

tail -n 300000 train_shuffle > validate_data

3. 特征工程

用户特征：userid, gender, age

广告特征：adid, advertesierid, titleid,keywordid, descriptionid

上下文特征：depth, position

High Level 特征：范化能力比较强的特征。四川人能吃辣。

Low Level 特征：自解释能力比较强。我朋友A能吃辣。id号

通常从刻画能力和覆盖率两个方面评判特征。

3.1 one hot encoding

这里使用 one hot encoding.因为数据量不大，直接使用map.数据量大的话可以使用hash。得到的是一个稀疏矩阵，采用稀疏矩阵表示，记录哪里有“1”即可。

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 import os

 import sys

 file = open(sys.argv[1],"r")

 toWrite = open(sys.argv[2],"w+")

 #feature_index表示最大的编号，函数的主要目的是产生唯一的id号，方法是前缀+id

 feature_map={}

 feature_index=0

 def processIdFeature(prefix, id):

     global feature_map

     global feature_index

     str = prefix + "_" + id

     if str in feature_map:

         return feature_map[str]

     else:

         feature_index = feature_index + 1

         feature_map[str] = feature_index

     return feature_index

 #这些特征加进去不一定管用，需要自己试验. lis里面存的是他在map里面的值

 def extracFeature1(seg):

     list=[]

     list.append(processIdFeature("url",seg[1]))

     list.append(processIdFeature("ad",seg[2]))

     list.append(processIdFeature("ader",seg[3]))

     list.append(processIdFeature("depth",seg[4]))

     list.append(processIdFeature("pos",seg[5]))

     list.append(processIdFeature("query",seg[6]))

     list.append(processIdFeature("keyword",seg[7]))

     list.append(processIdFeature("title",seg[8]))

     list.append(processIdFeature("desc",seg[9]))

         list.append(processIdFeature("user",seg[10]))

     return list

 def extracFeature2(seg):

     depth = float(seg[4])

     pos = float(seg[5])

     id = int (pos*10/depth)

     return processIdFeature("pos_ratio",str(id))

 def extracFeature3(seg):

     list=[]

     if(len(seg)>16):

         str = seg[2] + "_" + seg[15]

         list.append(processIdFeature("user_gender",str))

     return list

 def toStr(label, list):

     line=label

     for i in list:

         line = line + "\t" +str(i) + ":1"# 这里的str(i)是指把i变成字符串

     return line

 for line in file:

     seg = line.strip().split("\t")

     list = extracFeature1(seg)

     #list.append(extracFeature2(seg))

     #list.extend(extracFeature3(seg))

     toWrite.write(toStr(seg[0],list)+"\n")

 toWrite.close

对训练集和验证集进行encoding

python feature_map.py train_data train_feature

python feature_map.py validate_data validate_feature

如果使用Hash的话：

 HASH_SIZE = 1000000

 def processIdFeature(prefix, id):

     str = prefix + "_" + id

     return hash(str) % HASH_SIZE

 #接下来代码都一样

3.2 离散化

　　为什么要离散化？

　　离散化方法

　　比如说这里可以组合depth和pos，广告排在前1/3 中间后边的点击率感觉明显不同，所以这里可以使用pos / depth的离散化值来进行新特征的创建。

3.3 特征组合

　　特征种类内部做组合，比如广告内部特征，用户内部特征等，提高自身的刻画能力，自解释能力。但也会带来覆盖率低的问题。

　　特征种类之间做组合，比如用户和广告类型。提高表达关系的能力。比如这个广告在哪段时间点击率高等。

特征工程总结：

0.对于显示特征，采用onehotencoding的方法构建特征。

1.广告位置特征：使用depth - pos / depth 离散化来构建特征

3.广告与用户检索相似性特征：分别处理用户query与广告description,title,keywords之间的相似性，以query和description为例，使用所有广告的description作为一个语料库，然后看多少广告包含了我这个query,得到一个逆文档频率，然后在用得到这个query出现的一个频率（当前包含几个除以最大那个包含几个），通过TF-IDF计算这种相似度。

4.广告类别特征。根据用户的搜索关键字和广告的购买关键字集合做一个交集，之后得到触发关键字。每一个广告有一个触发关键字，可以利用触发关键字来定义两个广告之间的相似度（计算余弦相似度），以此为依据做一个k均值聚类。然后每一个广告做一个类标注，作为一个特征，找到每个类的topK个平凡的词语作为类标记。之后测试数据的时候，分别与这些类标记向量进行余弦相似度计算看属于哪个类。

5.广告质量的衡量。广告的质量主要主要看广告的title, discription, keywords之间的相似性，可以使用余弦相似度来度量。

4. 模型训练

　　特征处理完之后，使用Logestic回归进行建模如下

　　建模代码train.py如下：

 #!/usr/bin

 # -*- coding:utf-8 -*-

 import random

 import math

 alpha = 0.1

 iter = 1

 l2 = 1 #拉姆达

 file =open("train_feature","r")

 max_index = 0

 #拿到一个维度坐标最大值.找出这个map到底有多大，特征向量到底有多长

 for f in file :

         seg = f.strip().split("\t")

         for st in seg[1:]: #0不要,0是label

                 index = int(st.split(":")[0])

                 if index > max_index :

                         max_index = index

 weight = range (max_index+1)

 for i in range(max_index+1):

         weight[i]=random.uniform(-0.01,0.01) #初始化成-0.1 到 0.1

 for i in range(iter):

         file = open("train_feature","r")

         for f in file:

                 seg = f.strip().split("\t")

                 label = int (seg[0])

                 s = 0.0

                 for st in seg[1:]:

                         index = int (st.split(":")[0])

                         #val = float(st.split(":")[1])

                         s += weight[index] #特征值为1.其实就是一个大特征，出现了的是1，没出现的就是0.

                        # s+=weight[index]

                 p = 1.0/(1 + math.exp(-s)) #上面算出了wt * x。这里算的是sigmoid函数，也就是预测值是多少

         #梯度 == 预测值 - label。本来还要 * x的，但是因为x 都为1，所以。

                 g = p - label #这是算出来了梯度是多少。

                 for st in seg[1:]:

                          index = int(st.split(":")[0])

              weight[index]-=alpha* (g +l2 * weight[index]) # w == w - alpha * (梯度g + 拉姆达l2 * w)

 #在validate_feature上验证我们的预测效果是怎么样的。

 file = open("validate_feature","r")

 toWrite = open("pctr","w+") #pctr存的是预测出来的结果 代表的是实际是什么，预测出来是什么。

 for f in file :

         seg = f.strip().split("\t")

         lable = int (seg[0])

         s = 0.0

         for st in seg[1:]:

                 index = int(st.split(":")[0])

                 s+= weight[index]

         p = 1.0 /(1 + math.exp(-s))

         s = seg[0] + "," + str(p) + "\n"

         toWrite.write(s)

 toWrite.close()

　　如果使用AdaGrad算法的话就是梯度下降的步长不是固定的。是要除以梯度的累加和，这样导致后边的步长变小。　　

　　然后执行：

python train.py

最后生成pctr文件：第一列表示validate里面的真实值，第二列表示预测出来pctr。

5. 评价指标AUC

　　auc代码如下：

 #!/usr/bin/env python

 import sys

 def auc(labels,predicted_ctr):

     i_sorted = sorted(range(len(predicted_ctr)),key = lambda i : predicted_ctr[i],reverse = True)

     auc_temp = 0.0

     tp = 0.0

     tp_pre = 0.0

     fp = 0.0

     fp_pre = 0.0

     last_value = predicted_ctr[i_sorted[0]]

     for i in range(len(labels)):

         if labels[i_sorted[i]] > 0:

             tp+=1

         else:

             fp+=1

         if last_value != predicted_ctr[i_sorted[i]]:

                 auc_temp += ( tp + tp_pre ) * ( fp - fp_pre) / 2.0

                 tp_pre = tp

                 fp_pre = fp

                 last_value = predicted_ctr[i_sorted[i]]

     auc_temp += ( tp + tp_pre ) * ( fp -fp_pre ) / 2.0

     return auc_temp / (tp * fp)

 def evaluate(ids,true_values,predict_values):

     labels = []

     predicted_ctr = []

     for i in range(len(ids)):

         labels.append(int(true_values[i]))

         predicted_ctr.append(float(predict_values[i]))

     return auc(labels,predicted_ctr)

 if __name__ == "__main__":

     f = open(sys.argv[1],"r")

     ids = []

     true_values = []

     predict_values = []

     for line in f:

         seg = line.strip().split(",")

         ids.append(seg[0])

         true_values.append(seg[1])

         predict_values.append(seg[2])

     print evaluate(ids,true_values,predict_values)

　　执行代码如下：

 cat pctr | awk '{print NR "," $0}' > t

 python auc.py t

码农公寓