Read Data: 0918 |
Publication:SIGIR 2020 |
||
Title: SetRank: Learning a Permutation-Invariant Ranking Model for Information Retrieval |
|||
Aim: 用多头注意力方法,从数据中自动学习排序模型,然后利用该模型对检索到的文档集进行排序。 学习一个一个理想的排序模型应该是一个从文档集到集合上的排列的映射。 |
Research Question: 应该满足两个关键需求: (1)它应该具有建模跨文档交互的能力,以便在查询中捕获本地上下文信息; (2)它应该是排列不变的,这意味着输入文档的任何排列不会改变输出的排名。 以往关于学习排序的研究都设计了单变量评分函数,分别对每个文档进行评分,因此未能对跨文档交互建模;或者构造多变量评分函数,按顺序对文档评分,这不可避免地牺牲了排列不变性要求。 |
||
Method: SetRank由三层组成:Representation, Encoding, and Ranking。 首先,表示层将每个输入的文档分别表示为特征向量,此外,它还可以通过ordinal嵌入对特征表示中的文档进行初始排序。初始排名可以由现有的排名模型生成。 第二,编码层通过涉及相关文档的其他特征向量来丰富每个查询文档对的特征向量。本文利用多头自注意块(MSAB)或Induced多头自注意块(IMSAB),以一组查询文档对表示作为输入,利用这些自注意块生成一组新的表示。MSAB或IMSAB块的多个子层堆叠在一起使用相同的结构来建模文档之间的高阶交互。 第三,排序层接收最顶层的MSAB(或IMSAB)块的输出向量,将其传递给一个前馈函数,生成所有文档的相关性分数,最后根据这些分数对文档进行排序。 |
|||
Results: 在三个基准上的实验结果表明,SetRank显著优于包括传统的学习到排名模型和最先进的神经IR模型在内的基线。 |
Discussion: |
||
Conclusion: 在本文中,我们提出了一种新的信息检索的学习-排序模型,称为SetRank。与现有模型相比,SetRank中的评分功能被设计为从文档集到排列的多元映射,并满足两个关键需求:跨文档交互和排列不变性。采用Transformer中的自注意机制来实现评分功能。SetRank提供了几个优势:有效地捕获本地上下文信息,自然涉及(多个)初始排名,对输入噪声的鲁棒性,以及排名的高准确性。在三个大规模数据集上的实验结果表明,SetRank模型优于传统的学习排序模型和先进的深度排序模型。分析表明,这两个需求确实有助于提高SetRank模型的性能和鲁棒性。 |
Further:
|
||
Ref: 图1看懂。 |