读论文——Does syntax matter？ A strong baseline for Aspect-based Sentiment Analysis with RoBERTa

2021-10-05 03:03:03

第一遍

标题及作者（2021 4.11）

摘要

以往的研究表明，依赖树等句法信息可以有效地提高ABSA的性能，但是最近PTMs也在ABSA任务上非常有效
因此，问题自然而然地出现，PTMs是否包含足够的句法信息，使我们可以得到一个好的 ABSA模型只基于 PTMs
实验表明微调后的RoBERTa Induced Tree是更具有情感词的倾向，能够利于ABSA任务。

结论

本文分析了一些用于ALSC任务的树结构，包括parser-provided 依赖树和PTMs-induced 树。
本文从原始PTMs和ALSC微调PTMs使用扰动掩码法去生成依赖树，在四种语言的六个数据集上，基于三种用于ALSC的树结构。

介绍

用于ALSC任务的依赖树主要有三类：1. 使用依赖树的拓扑结构 2. 基于树节点间的距离，计算在树中的两个token的最短距离 3. 同时使用拓扑结构和距离
除了依赖树，还发现BERT等模型里面隐含了语法信息，预训练模型隐含了某些依赖树结构
由此引发两个问题：
1. PTMs模型还是基于语法树的模型在ALSC任务中更优呢？
2. PTMs在微调阶段，会将隐含的树结构调整为适应ALSC任务的树结构吗？
  
  实验表明，由FT-PTMs诱导的树可以帮助基于树的ALSC模型在微调前获得比同类模型更好的性能；此外，由ALSC优化的RoBERTa生成树的模型甚至可以胜过依赖解析器生成的树。
本文贡献点：
1. 采用FT-PTMs诱导树模型具有较好的性能
2. 对FT-PTMs诱导的树更倾向于情感词导向，使方面词和情感形容词直接连接
3. 发现RoBERTa能够适应于ALSC去帮助方面词去发现情感词

第二遍

3 方法

3.1 从PTMs中Inducing 树结构

采用扰动掩码方法去生成树结构

3.1.2 Perturbed Masking

f ( x i , x j ) = ∥ H θ ( x \ { x i } ) i − H θ ( x \ { x i , x j } ) i ∥ 2 f\left(x_{i}, x_{j}\right)=\left\|H_{\theta}\left(\mathbf{x} \backslash\left\{x_{i}\right\}\right)_{i}-H_{\theta}\left(\mathbf{x} \backslash\left\{x_{i}, x_{j}\right\}\right)_{i}\right\|_{2} f(xi,xj)=∥∥Hθ(x\{xi})i−Hθ(x\{xi,xj})i∥∥2

首先将 t o k e n {token } token x i x_i xi用[MASK]代替，然后输出 H θ ( x \ { x i } ) i H_{\theta}\left(\mathbf{x} \backslash\left\{x_{i}\right\}\right)_{i} Hθ(x\{xi})i；然后再MASK掉 x j x_j xj计算他们之间的欧几里得距离，表示两个token之间的距离。

3.2 基于Tree的ALSC模型

3.2.1 Aspect-specific GCN

将每个词作为节点，单词之间的依赖关系作为边，然后使用GCN网络对这个图进行建模。

3.2.2 邻近加权卷积网络（Proximity-Weighted 卷积网络）

尝试帮助方面词发现它的上下文词。首先根据依赖树之间的最短路径，计算邻近值；然后给每个词分配邻近值。

3.3 关系图注意力网络（Relational Graph Attention Network，RGAT）

将依赖树转换为面向方面词的树，使用方面词作为根节点，其他词与方面词直接相连。方面词与其他词之间的关系，要么基于句法标记，要么基于依赖树中的距离。

RGAT将保留与方面词距离为1的句法标签，分配给距离更远的词以虚拟标签。.

4 实验

4.2 树结构

采用spaCy和allenNLP中，自动生成的依赖解析树
通过扰动掩码方法，从预训练模型BERT和RoBERTa中生成依赖树
通过扰动掩码方法，从微调后的预训练模型BERT和RoBERTa中生成依赖树

4.3 实现细节

为了实现FT-PTMs诱导树，本文在ALSC数据中微调BERT和RoBERTa。
Perturbed Masking method

使用Chu–Liu/Edmonds’方法用于生成树编码；本文，先在模型的每一层上生成依赖树，实验发现在第11层生成依赖树最佳。

5. 实验结果

5.2 分析

相邻连接比例

本文发现RoBERTa依赖树具有更加紧密的连接，这也许并不利于ALSC任务，而且很多箭头都是指向了方面词。
FT-RoBERTa依赖树能够生成一个更多样化的依赖树，箭头也大多指向了观点词，这可能更加利于ALSC任务。

计算方面词和观点词之间的距离

A s D ( S i ) = ∑ w w i ∑ C ′ = S i ∩ C C i ′ dist ⁡ ( C i ′ , w i ) ∣ w ∣ ∣ C ′ ∣ ∣ ∣ 表示集合中元素个数 d i s t ( x i , y i ) 表示 x i 和 x j 在图中的相对距离 A s D\left(S_{i}\right)=\frac{\sum_{w}^{w_{i}} \sum_{C^{\prime}=S_{i} \cap C}^{C_{i}^{\prime}} \operatorname{dist}\left(C_{i}^{\prime}, w_{i}\right)}{|w|\left|C^{\prime}\right|} \\ | |表示集合中元素个数 \\ dist(x_i,y_i)表示x_i和x_j在图中的相对距离 AsD(Si)=∣w∣∣C′∣∑wwi∑C′=Si∩CCi′dist(Ci′,wi)∣∣表示集合中元素个数dist(xi,yi)表示xi和xj在图中的相对距离

第三遍

小结：

本文认为预训练模型中已经蕴含了很多语义、句法信息，因为可以将其用于ALSC任务中。
文本先将PTMs在ALSC任务中微调，然后利用Perturbed Masking method的方法生成依赖树，完成ALSC任务。

码农公寓

读论文——Does syntax matter？ A strong baseline for Aspect-based Sentiment Analysis with RoBERTa

第一遍

标题及作者（2021 4.11）

摘要

结论

介绍

相关工作

不带依赖的ALSC

带依赖的ALSC

基于PTMs的依赖探测

第二遍

3 方法

3.1 从PTMs中Inducing 树结构

3.1.2 Perturbed Masking

3.2 基于Tree的ALSC模型

3.2.1 Aspect-specific GCN

3.2.2 邻近加权卷积网络（Proximity-Weighted 卷积网络）

3.3 关系图注意力网络（Relational Graph Attention Network，RGAT）

4 实验

4.2 树结构

4.3 实现细节

5. 实验结果

5.2 分析

相邻连接比例

计算方面词和观点词之间的距离

第三遍

小结：

码农公寓

第一遍

标题及作者（2021 4.11）

摘要

结论

介绍

相关工作

不带依赖的ALSC

带依赖的ALSC

基于PTMs的依赖探测

第二遍

3 方法

3.1 从PTMs中Inducing 树结构

3.1.2 Perturbed Masking

3.2 基于Tree的ALSC模型

3.2.1 Aspect-specific GCN

3.2.2 邻近加权卷积网络（Proximity-Weighted 卷积网络）

3.3 关系图注意力网络（Relational Graph Attention Network，RGAT）

4 实验

4.2 树结构

4.3 实现细节

5. 实验结果

5.2 分析

相邻连接比例

计算方面词和观点词之间的距离

第三遍

小结：

相关文章