http://aclweb.org/anthology/W18-0505
https://sites.google.com/site/nadeemf0755/research/linguistic-complexity
https://github.com/Farahn/Liguistic-Complexity
abstract:
文本自动难度分析
现有工作--
基于知识驱动的特征作为输入的线性模型
优点:可解释性
缺点:短文本的准确率差
传统的可读性指标:不能泛化到信息文本比如science
我们的工作--
neural方法,解决了上面两个问题,在短文本上比基于知识的线性模型号,可以泛化到训练数据集里没有的类型
1 introduction
从1998年开始,就有各种自动文本难度评估系统,这些系统利用基于知识的特征去训练回归或分类模型,因为该系统与英语教学有关,所以大多数系统是在文学文本或者通用文本上训练的。
现有文本难度自动分析的方法有两个要点
1)系统使用基于知识的特征通常对长文本效果更好
2)复杂度评估在informational texts例如science上的精确度不好
我们的目标:解决上述两个问题
方法:
1)使用RNN来评估语言复杂度,其中输入是文本而不是特征工程
2)特别是在science和其他informational texts上训练,将把k-12难度分为了6组
用了4个不同的RNN来找出文本的哪些方面对于难度分级最有用,其中有一个新的结构用来解释cross-sentence context
所有的模型中都使用了attention,都是为了去提高准确率,也是可视化影响复杂对评估的重要因素的工具
结果:
RNN可以准确预测短science文本的难度
该模型也可以泛化到其他类型,但是对于100词以上的混合类型的文本,该模型的效果比基于特征的回归模型稍差
提出了一种新的神经网络架构来特征化文本和特征化预测短science文本难度性能高的实验结果
2 Background
2.1 Automated Readability Analysis
基于知识的特征:短文本时,特征向量会sparse
引用:传统类型低估了通用文本的难度,高估了informational文本的难度例如数学、历史等,一部分原因是里面的词汇是属于特定类的。science文本有更长的单词,即使可能更容易通过上下文猜出意思。文学书可能有更简单的单词,但是句式结构却更加复杂。所以该论文就提出因为把评估分为两步:
1)根据literatury或者informational或者mixed来将文本分类
2)使用genre-dependent分析器来评估难度
2.2 Text Classification with RNNs
LSTM
hierarchical RNN:hierarchical models have been proposed to better represent document structure
“self attention”:学习target最终分类结果的attention weight
3 Data
一个grade level,在不同的文本类型当中是不一样的含义
数据来源:在线的科学、社会历史的课本
数据特征:要么就是某一个年级的,要么就是年级段的,一共44本科学课本,11本社会历史课本,在grades K-12上均匀分布
数据处理:
1)基于每个等级的分布,将K-12分为了K-1、2-3, 4-5, 6-8, 9-10 and 11-12这六个等级段。
六个等级中每个部分的所有chapter数目为20-50个chapter,6-8等级最多,有165chapter
2)因为我们针对的是短文本,所以我们把书分成段落(用结尾符标记)。在这里,是直接假定某等级的书里的所有句子都是属于这一等级,但事实并非如此,所以训练集合测试集会有噪声,因此在预测的等级上会有波动
3)训练数据也用了WeeBit corpus并分了段
测试数据-三个来源
1)the CCS appendix B texts
http://www.corestandards.org/ELA-Literacy/这个corestandard是把艺术、社会历史、科学等按k-12分级,每个等级和类别都有相应的文章
the grade 6–12 literacy standards in history/social studies, science, and technical subjects
目的:和我们自己收集的数据作对比
2)a subset of the online texts that we collected
测试集和验证集中是随机从chapter中挑选出句子
http://www.corestandards.org/
3)a collection of science assessment items
http://data.allenai.org/ai2-science-questions-mercury/
小学和初中生science评估时问的问题,包含含有图解的和没有图解的,一共5129个问题
http://data.allenai.org/ai2-science-questions/
和上述类型一样
这个集合中把这两个来源综合了起来
这个集合中包含了国家和州考试中grades6-8等级的5470个问题,每个问题的平均长度是49个单词
训练数据-两个
1)在使用测试数据1)3)时,不用考虑训练数据和测试数据的重叠,所以所有的文本都可以用来训练,拿出了10%的数据用来做数据分析,剩下的都作为D1 training configuration
training data D1:
Grade Level /Train Samples /Mean Length
K-1 739 24.42
2-3 723 62.05
4-5 4570 63.82
6-8 15940 74.79
9-10 3051 68.24
11-12 2301 75.28
训练样本中大约20%来自Weebit,grades范围从2-12
2)为了测试三个测试数据,定义了traing configurationD2,其中没有包含和test数据的chapter有任何重叠的文本,因为数据量除了gradesK-1会比D1小
因为难度等级低的数据太少,难度高的数据很多,所以先用所有训练数据来预测grades K-3,4-5, 6-8 and 9-12这四个标签,然后使用得到正确标签的训练数据再次训练来预测六个标签,这种方法效果很好。
4 Models for Estimating Linguistic Complexity
四个rnn模型:
1)a sequential RNN with task attention,
2)a hierarchical attention network
3)4)two proposed extensions of the hierarchical model using multi-head attention and attention over bidirectional context
所有的document vector都会用再最后阶段的序列回归上来预测语言复杂度
所有的系统都是端到端训练
4.1 Sequential RNN
有序回归:ordinal regression using the proportional odds model (McCullagh, 1980).
4.2 Hierarchical RNN
序列rnn不能捕捉document结构
5 结果和分析
使用Spearman’s rank correlation作为指标来评估预测值和实际标签之间的单调关系
baseline选择的是the WeeBit linear regression system (Vajjala and Meurers, 2014),是基于知识的特征作为输入的线性回归模型,来预测等级1-5.5
WeeBit用到的特征:
The feature set includes parts-of-speech
(e.g. density of different parts-of-speech), lexical
(e.g. measurement of lexical variation), syntactic
(e.g. the number of verb phrases), morphological
(e.g. ratio of transitive verbs to total words) and psycholinguistic (e.g. age of acquisition) features.
There are no features related to discourse, thus it is possible to compute features for sentence level texts.
5.1 Results by Genre
Results for the different models:
• sequential RNN with self attention (RNN),
• large sequential RNN with self attention
(RNN 600),
• hierarchical RNN with attention at the word
and sentence level (HAN),
• hierarchical RNN with bidirectional context
and attention (BCA), and
• multi-head attention (MHA)
所有模型的hidden layer dimension for the word level的范围:125 and 250. We also trained a sequential
RNN with a larger hidden layer dimension of 600.
HAN的文本等级效果比序列rnn好,句子等级效果反之
rnn的hidden layer的维度越大,对长文本的效果越好
BCA模型对长文本和新类型的泛化能力最好
图3:BCA模型预测错误距离的图,literary和mix类型在图上是无篇的,即使在训练数据中没有literary数据,所以BAC具有更好的泛化能力
5.2 Results by Length
图4、5表示了模型性能和文本长度的关系。文本越短,特别是在低于100个单词是,圣经网络模型效果更好。甚至对于混合类型来说,bidirectional context也要比基于特征的回归模型效果好
我们结社基于特征的方法在短文本上的效果差的原因是特征向量变得更加稀疏。文本和句子级别的测试集中,平均下来为0的向量分别站到0.28和0.44,最多的时候站到0.4和0.81.
5.3 Results for Science Assessment Questions
应用Weebit系统和BCD(D1)模型到5470个等级在6-8的scien questions上。表6和表7,grades6-8对于BCA是分成了3个level,对于Weebit是分成了4个level。结果表明BCA的越比结果要比baseline更与人类的排序一致。如,grade6的问题就更可能被预测为比grade8的问题简单。
5.4 Attention Visualization
HAN的权重要比BAC更加稀疏
相同句子等级的时候,BCA句子的权重往往更加均匀分布,HAN的权重更加具有选择性
一个word在一篇document中多次出现时,每次出现的attention的等级是不一样的。我们把attention的最大和最小值看做是每个grade段内的word frequency的函数(图9)
在验证集和测试集中,每个grade段内的情况也是和上述相似,一个单词最小的attention值随着word frequency的增加而变小,而最大的attention值在增大。这表明wordfrequency越大,attention weights变得moreconfident,就像单词of一样。fusion和m/s这些单词的最大attention值很高,尽管没有of和the这么高。这可能表明他们对语言复杂度是有影响的。transformation的最低attention值也很高可能表明它的重要性。
没有双向context的HAN的情况是相似的
6 discussion
基于特征工程的模型的优点:
1)可解释性
2)训练数据需求更少
缺点
1)研究中可以考虑到的变量是有限的,qualitative vs quantitative methdologies的问题会影响到结果
我们的模型的优点:
优点:使用整个文本作为输入确保了不受上面这些约束
缺点:训练数据受限,搜集数据的代价和数据本身的偏差
7 conclusion
对于文本复杂度分析探索了多个神经网络模型,消除基于特征工程的系统的缺点
在少于100个单词的文本上rnns with attention的准确率更高
hierachical+attention+双向的效果会提升
最好的模型可以泛化到训练数据的类型以外,尽管在少于100个words的效果要比基于特征的回归模型效果稍差。来自其他类型的更多的训练数据可能会降低这种影响
分析attention权重可以深入理解哪些短语或者句子是重要