論文筆記(NLP)——Convolutional Neural Networks for Sentence Classification

  1. abstract
    本篇論文報告了一系列用預訓練詞向量上訓練的CNN進行句子級分類任務的實驗。展示了有少量參數調整和靜態向量的簡單的CNN在多個基準上達到了很好的效果。通過微調學習特定任務的向量能夠進一步提高性能。另外本篇論文對結構進行簡單的修改以允許使用特定任務和靜態向量。本文討論的CNN提高了7個任務中的4個技術,包括情感分析和問題分類。
  2. model
    在這裏插入圖片描述
    如圖所示,句子中的每個詞都被轉換爲kk維的向量xix_i,如果句子的長度爲nn,則該句子被表示爲n×kn\times k維的詞向量矩陣每個卷及操作都涉及一個filter wRhkw∈R^{hk}產生一個新的特徵。filter應用在每一個句子中單詞的每一個窗口產生一個feature map最後通過max pooling從feature map中抽取最重要的feature。本文采用多個filters抽取多個features。
    本文在詞向量的兩個channel上進行試驗,一個在通過訓練中始終保持靜態,一個通過反向傳播進行微調。
    在前向傳播過程中,使用masking向量rr進行dropout。
    在測試階段,以概率pp對權重進行縮放。
  3. Datasets and Experimental Setup
    3.1 Hyperparameters
  • filter windows(h)是3,4,5
  • 卷積器的數量是100
  • dropout率爲0.5
  • L2正則是3
  • mini-bach是50
    3.2 Model Variations
    在這裏插入圖片描述
    CNN-rand:基準模型,隨機初始化所有的單詞,並且在訓練過程中進行修改。
    CNN-static:具有word2vec預訓練向量的模型,所有單詞(包括隨機初始化的未知的單詞)保持靜態,只有模型的其他參數進行學習。
    CNN-non-static:和上邊一樣,但是對於每個任務對預訓練向量進行微調。
    CNN-multichannel:有兩個集合的詞向量,每一個向量的集合被作爲一個channel,每個filter應用在兩個channel,但是梯度的反向傳播僅通過一個channel,因此該模型可以保證微調一個集合的向量而保持其他的靜態。但是兩個channel都由word2vec初始化。
  1. Conclusion
    基於卷次操作的預訓練詞向量對實驗效果有很大的提升。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章