【deep learning學習筆記】Distributed Representations of Sentences and Documents

很久以前關注過一段時間word2vec,最近比較好奇doc2vec,找來資料看看。


時間:2014
作者:Mikolov (word2vec的作者)
發表於:icml
原文件:http://pan.baidu.com/s/1bnm7COB

主要內容:
繼寫出word2vec之後,接下來的問題是:能否在更大的語言單位上,如:短語、句子、段落、篇章,上面繼續word2vec的工作,將這些語言單位用實屬向量的方式表示出來。

思路:
作者思路很直接,即在word2vec模型的基礎上,將神經網絡的偏置b用一個向量來代替,參與訓練,在獲得每個詞語的實屬向量的同時,也獲得這個代替偏置的向量。作者用這個向量來作爲當前上下文content的表示向量。整個訓練方式和word2vec基本一致。

實驗:
作者一共寫了兩個實驗,我看了第一個。是判斷語句的情感傾向性的。關鍵在於作者如何使用他訓練出來的phrasevec。使用方式如下:對目標語句進行分詞,截取sub-phrase,每個sub-phrase對應一個作者訓練出來的phrasevec。用這些phrasevec,結合LR模型,進行分類,從而預測目標語句的情感傾向。從結果上看,無論是二值分類(正面情感 vs 負面情感)還是多值分類,相比傳統benchmark,作者的方法都有提升。

完。

轉載請註明出處:http://blog.csdn.net/xceman1997/article/details/46290365



發佈了167 篇原創文章 · 獲贊 65 · 訪問量 71萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章