Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
作者:Zhou P.ACL 2016.
目录
- Abstract
- Model
- Experiments
- Conclusion
1 Abstract
论文的产出首先就要发现问题,接着针对问题分析产生idea,进而解决问题出成果。那么本文作者主要针对两个问题:(1) 之前的关系抽取/分类,如Zeng D et al.2014.\(^{[3]}\)仍然依赖一些人工特征,如lexical features、position features。(2) 对于句子中的重要信息的位置具有随机性,可能出现在任意一个位置。
提出基于attension的模型,不在依赖人工特征,且attention能够提取句子中的重要信息。
2 Model
结构如图Figure1. 这篇paper所提出的模型主要包含五个部分:(1) 输入层:本文作者仅使用一个带有位置标识(e.g. The
2.1 Word Embeddings
直接用预训练的word embedding,复现时用的是glove.6B.100d.txt。
2.3 Attention
如下公式清晰明了,就是一个典型的Soft-Attention,相似度计算采用点积的方式即\(K\cdot{Q}\), H为LSTM输出hidden state、w为权重矩阵、r为句子标识即对H的加权attention求和之后r又做了个非线性变换喂给dense层通过使用softmax分类器做分类。
3 Experiments
paper结果:F1 score = 0.840,具体参数配置详见原文
4 Conclusion
“该模型利用了典型的注意力机制对 BiLSTM 的输出进行了注意力加权求和,在仅利用了词向量的情况下效果接近加入人工特征的模型,可见注意力机制的作用也是十分强大的。从论文的结果来看,不进行特征工程,仅仅将整个句子作为模型输入,并加入注意力机制,模型效果得到了非常大的提高,一方面说明必要的特征工程还是有效的,另一方面表明注意力机制也起到了十分明显的作用\(^{[2]}\)。”
参考
[1] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi∗, Bingchen Li, Hongwei Hao, Bo Xu.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification.ACL 2016.
[2] 西多士NLP.信息抽取-关系抽取.博客园 2019.https://www.cnblogs.com/sandwichnlp/p/12020066.html.
[3] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao.Relation Classification via Convolutional Deep Neural Network.COLING 2014.