论文阅读 | Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

2024-03-07 09:24:56

简述

在文本语义相似度等句子对的回归任务上，BERT , RoBERTa 拿到sota。

但是，它要求两个句子都被输入到网络中，从而导致巨大开销：从10000个句子集合中找到最相似的sentence-pair需要进行大约5000万个推理计算（约65小时）。

BERT不适合语义相似度搜索，也不适合非监督任务，比如聚类。

解决聚类和语义搜索的一种常见方法是将每个句子映射到一个向量空间，使得语义相似的句子很接近。

于是，也有人尝试向BERT输入单句，得到固定大小的sentene embedding。最常用的方法是，平均BERT输出层或使用第一个token（[CLS]的token）的输出。但这却产生了非常不好的sentence embedding，常常还不如averaging GloVe embeddings。

本文提出：Sentence-BERT（SBERT），对预训练的BERT进行修改：使用Siamese和三级（triplet）网络结构来获得语义上有意义的句子embedding->可以生成定长的sentence embedding，使用余弦相似度或Manhatten/Euclidean距离等进行比较找到语义相似的句子。

SBERT保证准确性的同时，可将上述提到的BERT/RoBERTa的65小时减少到5s。（计算余弦相似度大概0.01s）

除了语义相似度搜索，也可用来clustering搜索。

作者在NLI data中fine-tune SBERT，用时不到20分钟。