智能评卷系统的第三种实现方式

本文介绍最后一种的实现方式,该方式结合了BiLSTM双向的解码器进行解码操作,将解码后的向量进行了拼接,再输入几层全连接网络进行训练,最后通过softmax进行分类输出。

智能评卷系统的第三种实现方式

对考生答案进行正确评阅需要获取考生答案中每一句话的完整语义信息,即句子中各词汇的关联信息,仅仅获取句子中各个词汇的语义向量是远远不的,因此需要在词向量序列基础上对句子进行语义抽取。

本文使用 BiLSTM 对考生答案Xe和参考答案Ae中的每一句话进行编码,获取答案文本中每句话的语义向量。BiLSTM 由前向 LSTM 和后向 LSTM 组成,前向 LSTM 沿着词汇序列的第一个词到最后一个词的方向进行正向编码,向LSTM 沿着词汇序列的最后一个词到第一个词的方向进行反向编码。BiLSTM从两个方向对词汇序列进行编码,具有感知目标词汇上下文的能力,能够获词汇之间的长距离依赖信息。

对于句子s =w1,w2 … wl, 其中wi表示句子s中第i个词的词向量,i ∈ [0, l]。将s分别输入到前向 LSTM 和后向 LSTM 中,取前向 LSTM 和后向 LSTM 所有时间步隐藏状态的最大池化结果向量h1,h2,分别作为s的前向编码和向编码,将前向编码h1和后向编码h2进行拼接,得到s的最终编码h。
智能评卷系统的第三种实现方式
将考生答案Xe=s1,s2,…sm 和参考答案Ae=s1,s2,…sn中的每个句子分别通过 BiLSTM 进行编码,得到编码后的考生答案X和参考答案A。

智能评卷系统的第三种实现方式
对考生答案进行正确地评阅,不仅仅需要关注考生答案与参考答案的在句子级别的知识点匹配程度,同时也要重视二者整段文本本身所蕴含的语义息。通过前面的句子语义特征抽取,得到了考生答案和参考答案的句向量序列h1和h2,通过对答案文本的句向量序列进行整体建模,获取句子序列间的关联关系,得到答案文本的整体语义向量。

本文通过 BiLSTM 网络对答案文本的句向量序列进行整体建模。将考生答案X的参考答案表示ax分别输入到 BiLSTM 网络中,用来捕获句子之间的序特征。同样的,取 BiLSTM 网络所有时间步隐藏状态的最大池化结果,分别得到考生答案整体向量vx和参考答案整体向量va。

智能评卷系统的第三种实现方式
将考生答案向量vx和参考答案向量va进行拼接得到向量v,通过两层前馈神经网络和 softmax 激活函数,得到考生答案在得分类别上的概率分布向量s。

智能评卷系统的第三种实现方式
s中概率最大的类别即为考生答案得分s ∈ R。

上一篇:Paper之DL:深度学习高质量论文分类推荐(建议收藏,持续更新)


下一篇:DL之LSTM:LSTM算法论文简介(原理、关键步骤、RNN/LSTM/GRU比较、单层和多层的LSTM)、案例应用之详细攻略