【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

2023-10-02 13:27:40

作者：Mingxuan Wang。李航，刘群

单位：华为、中科院

时间：2015

发表于：acl 2015

文章下载：http://pan.baidu.com/s/1bnBBVuJ

主要内容：

用deep learning设计了一种语言模型。可以依据之前“全部”的历史来预測当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量，该模型都比baseline（5-gram、RNN、等）好

详细内容：

之前用deep learning在语言模型上的进展是：RNN和LSTM

參考的工具包：

RNN – http://rnnlm.org/

LSTM – https://github.com/lisa-groundhog/GroundHog
本文作者的实现方式：

（1）用alpha-cnn来模拟当前词比較近的历史，约之前30个词。用beta-cnn来递归的模拟全部之前的历史。beta-cnn的输出是其它beta-cnn以及alpha-cnn的输入。网络结构例如以下：

（2）用了word2vec作为词语的输入，两层隐含层，用gate取代max pooling，最后输出层是softmax层

（3）同标准cnn不同的是：标准cnn在局部共享权重，本文既有共享的权重，也有不共享的权重

（4）训练方式是最大化训练语料中句子的概率
实验结果（困惑度）

5-gram KN smoothing: 270

RNN：223

LSTM：206

本文方法：180

另外，训练时间比較长，1M句子，用了GPU还训练了2天。

$(function () {
$('pre.prettyprint code').each(function () {
var lines = $(this).text().split('\n').length;
var $numbering = $('

').addClass('pre-numbering').hide();
$(this).addClass('has-numbering').parent().append($numbering);
for (i = 1; i ').text(i));
};
$numbering.fadeIn(1700);
});
});

码农公寓

相关文章