[论文阅读]《Convolutional Neural Networks for Sentence Classification》

2023-10-28 18:22:04

Kim Y . Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.

Abstract

文章主要内容是作者做的一系列实验，使用在预训练词向量上训练的卷积神经网络（cnn）用于句子级分类任务。多个基准测试的结果表明，微调学习特定于任务的向量可以进一步提高性能。

作者还对架构进行了简单的修改，允许使用特定于任务的向量和静态向量。

实验包括cnn在7个任务中的4个任务上达到了sota，其中包括情感分析和问题分类。

Introduction

词向量，本质上是特征提取器在词的维度中编码词的语义特征。在这样的密集表示中，语义接近的词在低维向量空间中同样接近（欧几里得或余弦距离）。

卷积神经网络 (CNN) 使用卷积滤波器提取局部特征。

作者训练了一个简单的 CNN，在从无监督神经语言模型中获得的词向量（googlenews2013）之上有一层卷积。我们最初保持单词向量静态并且只学习模型的其他参数。尽管很少调整超参数，但这个简单的模型在多个基准测试中取得了出色的结果，这表明预训练的向量是“通用”特征提取器，可用于各种分类任务。通过微调学习特定于任务的向量会导致进一步的改进。我们最后描述了对架构的简单修改，以允许通过具有多个通道来使用预训练和任务特定的向量。

与图像分类类似，本文的工作从预先训练的深度学习模型中获得的特征提取器在各种任务上表现良好——包括与特征提取器所执行的原始任务非常不同的任务。