作者:Mingxuan Wang,李航,劉羣
單位:華爲、中科院
時間:2015
發表於:acl 2015
文章下載:http://pan.baidu.com/s/1bnBBVuJ
主要內容:
用deep learning設計了一種語言模型,能夠根據之前“所有”的歷史來預測當前詞的條件概率。用語言模型迷惑度衡量、用機器翻譯衡量,該模型都比baseline(5-gram、RNN、等)好
具體內容:
之前用deep learning在語言模型上的進展是:RNN和LSTM
參考的工具包:
RNN – http://rnnlm.org/
LSTM – https://github.com/lisa-groundhog/GroundHog本文作者的實現方式:
(1)用alpha-cnn來模擬當前詞比較近的歷史,約之前30個詞;用beta-cnn來遞歸的模擬所有之前的歷史。beta-cnn的輸出是其他beta-cnn以及alpha-cnn的輸入。網絡結構如下:
(2)用了word2vec作爲詞語的輸入,兩層隱含層,用gate代替max pooling,最後輸出層是softmax層
(3)同標準cnn不同的是:標準cnn在局部共享權重,本文既有共享的權重,也有不共享的權重
(4)訓練方式是最大化訓練語料中句子的概率實驗結果(困惑度)
5-gram KN smoothing: 270
RNN:223
LSTM:206
本文方法:180
另外,訓練時間比較長,1M句子,用了GPU還訓練了2天。