【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

作者:Mingxuan Wang,李航,劉羣
單位:華爲、中科院
時間:2015
發表於:acl 2015
文章下載:http://pan.baidu.com/s/1bnBBVuJ

主要內容:
用deep learning設計了一種語言模型,能夠根據之前“所有”的歷史來預測當前詞的條件概率。用語言模型迷惑度衡量、用機器翻譯衡量,該模型都比baseline(5-gram、RNN、等)好

具體內容:

  1. 之前用deep learning在語言模型上的進展是:RNN和LSTM
    參考的工具包:
    RNN – http://rnnlm.org/
    LSTM – https://github.com/lisa-groundhog/GroundHog

  2. 本文作者的實現方式:
    (1)用alpha-cnn來模擬當前詞比較近的歷史,約之前30個詞;用beta-cnn來遞歸的模擬所有之前的歷史。beta-cnn的輸出是其他beta-cnn以及alpha-cnn的輸入。網絡結構如下:
    (2)用了word2vec作爲詞語的輸入,兩層隱含層,用gate代替max pooling,最後輸出層是softmax層
    (3)同標準cnn不同的是:標準cnn在局部共享權重,本文既有共享的權重,也有不共享的權重
    (4)訓練方式是最大化訓練語料中句子的概率

  3. 實驗結果(困惑度)
    5-gram KN smoothing: 270
    RNN:223
    LSTM:206
    本文方法:180

另外,訓練時間比較長,1M句子,用了GPU還訓練了2天。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章