詞嵌入的複用

文獻:Labutov I, Lipson H. Re-embedding words[C]//ACL (2). 2013: 489-493.

主要思想:

一方面,詞的嵌入表示形式與學習任務密切相關(dramatic (term X) and pleasant (term Y ) to correlate with a review of a good movie (task A),而在dating profile的場景中,則表現出相反的情感極性);另一方面,詞嵌入學習涉及海量數據,從而計算代價非常之高。再者,許多產生於海量數據的詞嵌入表示庫可以免費獲取。本文從詞嵌入知識庫的改造與嵌入着手展開研究。

問題形式化

給定源字典VS , 目標字典VT , 令VSVT=V , 源嵌入字典ΦSR|V|×K , 生成目標嵌入字典ΦTR|V|×K

方法描述

(1)建立有監督模型

文檔djD 具有情感極性sj , 學習的實質就是最大化如下條件概率(目標函數):

  • p(s1,,s|D||D;ΦT)=djDwidjp(sj|ΦT(wi)) , 其中p(sj=1|ΦT(wi))=11+exp(φΦT(wi)) , φ 是詞嵌入表示的權重向量。

(2)正則化有監督模型

爲了充分利用現有的詞嵌入知識庫,對上述目標函數做如下改造:
- argmaxφ,ΦTdjDwidjp(sj|ΦT(wi))λΦTΦS2F

考慮到該目標函數在參數φΦT 是凸的,故可其唯一解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章