[论文阅读笔记42]BioSyn

2024-01-16 19:05:10

题目

Biomedical Entity Representations with Synonym Marginalization

具有同义词边缘化的生物医学实体表示

Korea University （韩国）高丽大学

代码：https://github.com/dmis-lab/BioSyn

Sung M , Jeon H , Lee J , et al. Biomedical Entity Representations with Synonym Marginalization[J]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.

摘要

专注于学习仅基于实体的同义词的生物医学实体的表示。
提出BIOSYN.

背景

不同字符有相同的含义，相同的含义有不同的表面字符；
一般的解决方法是采用二元分类来处理，如果相同就是正样本，否则为负样本。

论文提出：BIOSYN – 使用同义词边缘化技术，它最大限度地将top候选对象中所有同义词表示的概率最大化。

采用稀疏与稠密的方法分别去捕捉“morphological”与“semantic”的信息；

方法

贡献：提出BIOSYN模型，它是基于同义词边缘化的思想；

以前的工作都是pair-wise训练模型的，且明确要求负样本对的；负样本的方法，负样本的采样对结果的影响是十分大的。本论文的工作是基于边缘化正样本的方法。

基于检索的思想去研究相关 – maximum inner product search (MIPS) 【计算最大内积搜索】

问题定义

对于输入的m, CUI(·)返回同义词n的CUI，其中θ 为模型参数。N是所有同义词休，n为其中的元素。
模型

Mention与Dictionary采用同等的Encoder来编码，它们是共享的，接着就是内积；

在训练阶段迭代更新top候选与基于表达计算marginal同义词概率；

在预测阶段，使用MIPS来计算最相近的同义词；

稀疏实体表示

e_s_m，e_s_n分别表示输入与同义词的tf-idf稀疏表示，稀疏相似定义为：

f(·，·)表示相似函数，通过两向量的内积来计算。

密集实体表示

稀疏表示实现了形态学的编码表示，密集表示则是是语义信息编码表示；

学习有效的密集表示是实体标准化的一个关键挑战；

这里使用BioBERT来编码。【Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019】

预训练BioBERT，fifine-tune是使用 synonym marginalization algorithm；

m = {**m1*, …, ml}*，是subword序列，由Word-Piece tokenizer分隔开的子词集合；[CLS] 表示输入的输出向量，即是表示这个m的向量。

这个f也是内积的相似函数。

Similarity Function（相似函数）

其中，λ是sparse分类，它是可训练标量权重。

训练

基于模型侯选检索与最大化同义词正向边缘概率的方法。在这个框架中，使用实体编码器来迭代地更新*候选者。

Iterative Candidate Retrieval

这步就像是召回。从大量的候选集中选择小部分来训练。

k: 表示对于训练集检索出来top候选的总数；

a: 表示来自dense候选的比率。(0 ≤ α ≤ 1)

[ak]个S_dense候选, k - [ak]个S_sparse候选.

Synonym Marginalization

分母是前k个候选之和。

对于m的同义正向边缘概率定义为：

EQUAL(m, n)为1时， CUI(m)等价于CUI(n).

损失函数

M表示mentions的总数；
预测

预测时只是计算S(m, n) 就可以了，然后选择最近似的一个就OK了。

实验

预处理：大小写，标点符号，拼写错误，缩写（Ab3P），组合概念词（启发式规则）；

https://github.com/ncbi-nlp/Ab3P

对于稀疏： tf-idf方法，使用uni-, bi-grams.

k = 20 – 候选数

a = 0.5 – dense的占比

学习率 = 1e-5

weight decay = 1e-2

mini-batch size = 16

λ = 2~4

数据集

NCBI Disease Corpus：https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE

Biocreative V CDR：https://biocreative.bioinformatics.udel.edu/tasks/biocreative-v/track-3-cdr/

TAC2017ADR：https://bionlp.nlm.nih.gov/tac2017adversereactions

结果

BIOSYN(S-SCORE): 只使用sparse scores来推理预测；

BIOSYN(D-SCORE): 只使用dense scores来推理预测；

BIOSYN (α = 0*.*0): 只使用sparse candidates来训练；

BIOSYN (α = 1*.*0): 只使用dense candidates来训练；

迭代候选检索过程

候选集数量效果进行研究

更高的候选数不会提高更高的准确率

同义词边缘化研究

marginal maximum likelihood (MML)与其它损失函数对比：hard EM， standard pair-wise；

Memory augmented policy optimization for program synthesis and semantic parsing – 2018

Dnorm: disease name normalization with pairwise learning to rank – 2013

分析

Iterative Candidate Samples

Error Analysis

略

总结

不知道这个方法用到中文标准化会怎么样？

参考

代码：https://github.com/dmis-lab/BioSyn

论文：https://arxiv.org/abs/2005.00239

码农公寓

[论文阅读笔记42]BioSyn

题目

摘要

背景

方法

实验

分析

相关工作

总结

参考

码农公寓

题目

摘要

背景

方法

实验

分析

相关工作

总结

参考

相关文章