LAReQA: Language-Agnostic Answer Retrieval from a Multilingual Pool
trained models are available at https://tfhub.dev/s?q=lareqa.
dataset and evaluation code are available at https://github.com/google-research-datasets/lareqa.
提出一个Language-Agnostic的检索模型,可以实现不同语言问题的答案检索,作者认为值得考虑使用跨语言模型直接检索多语言结果的更简单的方法。
Looking for Answers across Languages
- 实用价值:利于使用网络规模较小的语言的人检索问题答案。
- 语言偏置:如果模型更喜欢一种语言而不是另一种语言。那么它倾向于检索该语言的无关结果,而不是另一种语言的相关结果。(作者提到实验中发现模型具有同语言偏见,即倾向于选择与问题同语言的答案,相比于正确的不同语言答案,模型仍会选择不相关的同语言答案)这就必须在语言不可知的嵌入空间下对齐不同语言的文本,如图(b)所示。
跨语言检索数据集
注:如果一个句子包含问题的正确答案,则将这个句子视为正确答案。
https://github.com/google-research-datasets/lareqa.
Baseline Models(mBERT)
所有baselines都是dual encoder结构。这种架构能够通过近似最近邻搜索进行检索,因此可以很好地适应大规模检索问题。
LOSS:in-batch sampled softmax loss:(在检索任务中更容易收敛)
Train
如果是单语言训练,会出现语言偏置:
所以采用X-X mono模式:确保每一batch都是单语的,如图c所示。
第四个基线X-Y训练:这种设置是第一个直接激励模型将其他语言的答案视为正确的,这能进一步减少相同语言的偏见。
最后的基线是Translate-Test:
简单地将任何测试数据翻译成英语,然后用En-En模型进行评分。
结果:
语言偏置实验:
移除11个语言答案中任意一个,对于没有语言偏置的模型来说,移除单个目标的效果应该是恒定的,不管移除的目标是否与问题使用相同的语言。
可以看出所有基线表现都不错