[论文阅读笔记42]BioSyn

题目

Biomedical Entity Representations with Synonym Marginalization

具有同义词边缘化的生物医学实体表示

Korea University (韩国)高丽大学

代码:https://github.com/dmis-lab/BioSyn

Sung M , Jeon H , Lee J , et al. Biomedical Entity Representations with Synonym Marginalization[J]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.

摘要

专注于学习仅基于实体的同义词的生物医学实体的表示。
提出BIOSYN.

背景

不同字符有相同的含义,相同的含义有不同的表面字符;
一般的解决方法是采用二元分类来处理,如果相同就是正样本,否则为负样本。

论文提出:BIOSYN – 使用同义词边缘化技术,它最大限度地将top候选对象中所有同义词表示的概率最大化。

采用稀疏与稠密的方法分别去捕捉“morphological”与“semantic”的信息;

方法

贡献:提出BIOSYN模型,它是基于同义词边缘化的思想;

以前的工作都是pair-wise训练模型的,且明确要求负样本对的;负样本的方法,负样本的采样对结果的影响是十分大的。本论文的工作是基于边缘化正样本的方法。

基于检索的思想去研究相关 – maximum inner product search (MIPS) 【计算最大内积搜索】

  1. 问题定义

    [论文阅读笔记42]BioSyn

    对于输入的m, CUI(·)返回同义词n的CUI,其中θ 为模型参数。N是所有同义词休,n为其中的元素。

  2. 模型

[论文阅读笔记42]BioSyn

Mention与Dictionary采用同等的Encoder来编码,它们是共享的,接着就是内积;

在训练阶段迭代更新top候选与基于表达计算marginal同义词概率;

在预测阶段,使用MIPS来计算最相近的同义词;

稀疏实体表示

e_s_me_s_n分别表示输入与同义词的tf-idf稀疏表示,稀疏相似定义为:

[论文阅读笔记42]BioSyn

f(··)表示相似函数,通过两向量的内积来计算。

密集实体表示

稀疏表示实现了形态学的编码表示,密集表示则是是语义信息编码表示;

学习有效的密集表示是实体标准化的一个关键挑战;

这里使用BioBERT来编码。【Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019】

预训练BioBERT,fifine-tune是使用 synonym marginalization algorithm;

[论文阅读笔记42]BioSyn

m = {**m1*, …, ml}*,是subword序列,由Word-Piece tokenizer分隔开的子词集合;[CLS] 表示输入的输出向量,即是表示这个m的向量。

[论文阅读笔记42]BioSyn

这个f也是内积的相似函数。

Similarity Function(相似函数)

[论文阅读笔记42]BioSyn

其中,λ是sparse分类,它是可训练标量权重。

  1. 训练

    基于模型侯选检索与最大化同义词正向边缘概率的方法。在这个框架中,使用实体编码器来迭代地更新*候选者。

    Iterative Candidate Retrieval

    这步就像是召回。从大量的候选集中选择小部分来训练。

    k: 表示对于训练集检索出来top候选的总数;

    a: 表示来自dense候选的比率。(0 α 1)

    [ak]个S_dense候选, k - [ak]个S_sparse候选.

    Synonym Marginalization

    [论文阅读笔记42]BioSyn

    分母是前k个候选之和。

    对于m的同义正向边缘概率定义为:

    [论文阅读笔记42]BioSyn

    EQUAL(m, n)为1时, CUI(m)等价于CUI(n).

    损失函数

    [论文阅读笔记42]BioSyn

    M表示mentions的总数;

  2. 预测

    预测时只是计算S(m, n) 就可以了,然后选择最近似的一个就OK了。

实验

预处理:大小写,标点符号,拼写错误,缩写(Ab3P),组合概念词(启发式规则);

https://github.com/ncbi-nlp/Ab3P

对于稀疏: tf-idf方法,使用uni-, bi-grams.

k = 20 – 候选数

a = 0.5 – dense的占比

学习率 = 1e-5

weight decay = 1e-2

mini-batch size = 16

λ = 2~4

数据集

[论文阅读笔记42]BioSyn

NCBI Disease Corpus:https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE

Biocreative V CDR:https://biocreative.bioinformatics.udel.edu/tasks/biocreative-v/track-3-cdr/

TAC2017ADR:https://bionlp.nlm.nih.gov/tac2017adversereactions

结果

[论文阅读笔记42]BioSyn

​ BIOSYN(S-SCORE): 只使用sparse scores来推理预测;

​ BIOSYN(D-SCORE): 只使用dense scores来推理预测;

​ BIOSYN (α = 0*.*0): 只使用sparse candidates来训练;

​ BIOSYN (α = 1*.*0): 只使用dense candidates来训练;

迭代候选检索过程

[论文阅读笔记42]BioSyn

候选集数量效果进行研究

更高的候选数不会提高更高的准确率

[论文阅读笔记42]BioSyn

同义词边缘化研究

marginal maximum likelihood (MML)与其它损失函数对比:hard EM, standard pair-wise;

Memory augmented policy optimization for program synthesis and semantic parsing – 2018

Dnorm: disease name normalization with pairwise learning to rank – 2013

[论文阅读笔记42]BioSyn

分析

Iterative Candidate Samples

[论文阅读笔记42]BioSyn

Error Analysis

相关工作

  1. 生物医学实体表达依赖于生物医学词表达:

Word2vec

Distributed representations of words and phrases and their compositionality – 2013

Distributional semantics resources for biomedical text processing – 2013, PubMed语料

生物医版的word2Vec广泛应用于其它任务上,标准化任务也不例外:《Medical entity linking using triplet network》 - 2019

BioBERT

Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019 – 基于bert模型使用生物语料进行训练的模型

  1. 任务问题陈述

对生物医学实体表示质量评价通常是通过生物医学实体标准化任务来验证;

目标:将生物医学文本Mention映射到字典中相关的CUI(概念唯一ID);

任务相关:entity linking,entity grounding;

挑战:生物医学领域有大量的同义词;

相关论文:

Dnorm: disease name normaliza tion with pairwise learning to rank – 2013

Robust representation learning of biomedical names – 2019

Sieve-based entity linking for the biomedical domain – 2015

Taggerone: joint named entity recognition and normalization with semi-markov models – 2016

  1. 传统的标准化方法 – 基于手工规则进行

    DNorm, CNN-based ranking method,NSEEN(与论文相似),BNE(与论文相似)

    Nseen: Neural semantic embedding for entity normalization – 2019

    Robust representation learning of biomedical names – 2019 – BNE

    使用LSTM模型将字典中提到的概念名称映射到潜在空间,并使用负采样技术改进了嵌入。

总结

不知道这个方法用到中文标准化会怎么样?

参考

代码:https://github.com/dmis-lab/BioSyn

论文:https://arxiv.org/abs/2005.00239

上一篇:C++Primer2.3.2 练习和答案


下一篇:【APICloud系列|42】安卓应用和ios应用下载地址生成一个统一二维码的解决办法