Enriching Word Embeddings for Patent Retrieval with Global Context

Enriching Word Embeddings for Patent Retrieval with Global Context

利用全局上下文丰富专利检索词嵌入

Abstract.

在本研究中,我们探讨词汇嵌入在专利检索中的应用,是基于分布式语义的方法。

什么是分布式语义https://blog.csdn.net/flying_1314/article/details/117930877

word2vec skip-gram的局限性:上下文窗口的内在约束。对于模型来说窗口太窄→无法捕捉到专利领域的全部复杂性。

解决方法:当地和全局的上下文*同提取嵌入式学习。

(1)使用全局改进来适应Skip-gram 的向量;

(2)使用全局上下文来过滤词的相似性。

专利检索的困难:在其他领域表现好的模型在专利文本方面来源困难???

语义、分布式语义的有效性存疑

局部+全局组合→单词嵌入

通过从这些复杂的信息源中提取信息,我们可以显著提高在这个领域中基于recall的测量方法的性能。

以word2vec Skip-gram检测检索有效性,在专利领域使用来自word2vec Skip-gram的相似单词可以得到轻微改善。

使用潜在语义索引LSI)来处理文档范围内的单词上下文

为了结合LSI和Skip-gram的词汇相似性,有两种方法:

(1)基于使用Retrofitting的LSI诱导词相似性回顾性地适应 Skip-gram 模型产生的向量表示

(2)受Post-Filtering方法的启发,我们根据 lsi 模型的相似性对Skip-gram模型的结果进行过滤

Retrofitting方法学会了一种通用词嵌入(没有每个查询的开销) ,并且不需要行业规模的相关性判断或样本查询。

2 Background

2.1 Retrofitting

核心:根据辅助资源提供的词-词相似性来适应现有词嵌入的向量表示。

目标函数:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Cl3VqNcN-1638621758902)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20211204190857199.png)]

实质是来自嵌入和外部词源的原词汇向量与改进词汇向量差的加权和

更新使vt更加靠近vt’

2.2 扩展翻译模型

为一些概率检索模型引入扩展翻译模型,作为翻译语言模型的变种,提供了一种用词嵌入做文档检索的稳健方法。

关于术语的定义,每个术语的 基本概念是从嵌入模型中提取的,基于基本概念形成术语-术语关系。扩展翻译模型不计算术语出现的次数,而是计算术语的概念在文档中出现的次数。

词频tf定义为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mMuZEFKm-1638621758905)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20211204193613356.png)]

相当于某种修正,以翻译概率和相似术语集合修正tf

3 Methodology

重点在于检索所使用的全局上下文的来源和度量,而不是检索模型本身。so提出不同的模型来衡量必要的词语相似性。

SkipGram , LSI:

分别从 word2vec Skip-gram和LSI获得一组相关词,对于每个模型,通过评估参数超过阈值参数来确定词间相似度的阈值。

Retro(*) :

适用于 Skip-gram嵌入的改进。输入可以是任意定义为词汇间相似关系的外部资源。来自

PostFilter(*):滤 skipgram (r (t))的相关词集,剔除外部资源 r * (t)的相关词集中没有出现的词。只考虑两个相关的词汇,只有当 skipgram 和外部模型都包含时才考虑。

ExtRetro(,):和原来的扩展策略相比,使用了两个外部资源。

PFRetro(,) :融合两个外部资源的信息作为最终的相关术语集。它使用Retro(*) 模型结果的第一个输入来应用后过滤器,以优化来自第二个输入资源的结果。

4 Evaluation and Results

与 bm25相比,lm 的总体性能更好;

与无相比,skipgram 和 lsi 方法只有轻微的改进。

语义词汇+词汇相似性无明显改进

PostFilter均显著改善了所有baseline,

我们假设 postfilter (lsi)方法在 map 上的更好性能是由于它的保守性,因为该方法只保留了在 skipgram 和 lsi 单词嵌入中常见的相关单词。然而,retro (lsi)方法在向量表示空间中加入了 lsi 相似性,为单词提供了更广泛的语义相似性范围(有利于recall) ,同时仍然保持映射结果在与基线相同或更高的范围内。

两种方法(ext-retro 和 pf-retro)的性能都不如 retro (lsi)和 postfilter (lsi) ,这表明明确的语义词典不会有助于提高这个领域的有效性

通过与none比检验结果,检测鲁棒性,retro (lsi)和 postfilter (lsi) 鲁棒性好

skip-gram不行,生僻词会造成性能损失。

领域的有效性

通过与none比检验结果,检测鲁棒性,retro (lsi)和 postfilter (lsi) 鲁棒性好

skip-gram不行,生僻词会造成性能损失。

上一篇:mysql8.0 版本忘记密码如何修改密码(与5.7.35版本mysql不同)


下一篇:PXE高效批量网络装机