3 信息匹配与排序
针对用户需求和网络数据的匹配,排序学习技术通过机器学习的方法进行结果排序,是当前搜索引擎主流的解决方案。然而,传统的排序学习技术依赖于对全集样本的多级标注和学习,标注可信度低且不能很好地体现检索中关注位置的特点;同时传统的排序学习技术建立在文档独立性假设之上,难以建模多样性等问题。我们提出了Top-k排序学习[9-10]和关系排序学习框架[11-12],突破了传统的基于分级标注体系,以及文档样本独立性假设,能更好地适用于互联网搜索。
3.1 Top-k排序学习框架
传统排序学习框架通常建立在绝对标注基础上,这种标注方式不仅误差大,而且未能体现排序关注Top结果的特点。针对该问题,我们从理论和实证两个角度分析了基于Top-k序的局部学习与基于全序的全局学习的关系,并从理论上证明了局部学习的损失函函数与全局学习的损失函数相比,是常用的检索评价指标基准损失的一个更近的上界(如图5所示),从而从优化评价指标基准损失的角度证明了Top-k学习能够得到更好的结果[9]。基于这一发现,我们提出了一个完整的Top-k排序学习框架[10],包括Top-k标注策略、Top-k排序模型和Top-k评价准则三部分。其中,Top-k的标注策略摒弃绝对标注,以相对标注方式为基础,使用堆排序的策略实现;Top-k排序模型将重点放在对前k个文档的学习上;Top-k评价准则更加符合用户重视前k个位置的搜索需求。该框架的优点包括:①采用相对标注方式,能以较低代价更加精确地反映排序相关性;②将有限的计算资源用在对相关性影响大的数据上学习,从而提升排序性能,更加符合排序的实际需求。Top-k排序学习框架[7]长文发表在ACM SIGIR 2012上,被评为当年唯一一篇最佳学生论文(Best Student Paper Award)。
3.2 关系排序学习框架
传统的排序学习模型通常假设文档之间是相互独立的,然而,在很多情况下独立性并不成立,例如要考虑排序结果的多样性,则必须考虑文档之间的相互关系。针对这个问题,我们提出了关系排序学习框架[11-12],打破了传统排序学习模型依赖的独立性假设,从而能够同时建模排序中的相关性和多样性目标。具体的,我们将打分函数建模为自身的相关性得分与基于已选文档的多样性得分,其中相关性得分与传统排序学习类似,多样性得分可以具体表达为一些文档关系特征的线性组合的形式。特别的,我们使用Plakettt-Luce模型来建模排序的顺序过程,从而能自然地捕捉到排序结果中文档的相互关系。实验证明,我们的方法对比与当前主流的多样性排序模型,可以取得显著的性能提升。