文獻:Chen Z, Lin W, Chen Q, et al. Revisiting Word Embedding for Contrasting Meaning[C] ACL 2015: 106-115.
基本思想
現有的詞嵌入模型都是建立在“分佈式語義”的假設之上,即“具有相似上下文的詞語具有相似語義”,而語義具有對比意義的不同詞往往具有相似的上下文. 因而,這些模型難以勝任語義對比分析的任務。
框架
提出如下框架:
(1)Top Hidden Layer負責將詞對比語義的各種嵌入表示(SCE、CRM、SDR)集成;
(2)Contrast Inference Layer 負責嵌入表示: CRM與SDR爲現有方法,MCE爲本文提出的方法。
對比語義嵌入表示方法SCE
啓發於Hinton 提出的隨機鄰域嵌入(stochastic neighbor embedding, SNE)思想“原始空間與嵌入空間中,目標詞的鄰居分佈大致相同”,本文提出SCE(stochastic constrasting embedding),SCE具有如下特徵:
在原始空間與嵌入空間中the distribution of the contrasting “neighbors” to be close to the distribution of the “neighbors”
利用詞典中的反義詞學習constrasting neighbors
在原始空間與嵌入空間中, 詞
wk 的具有對比語義鄰居詞語集與具有相似語義鄰居詞語集大致不變
詞
(1)Marginal Contrasting Embedding
-子目標1:
-子目標2:
-綜合目標:
目標1中的
目標2中的
(2)SDR(Semantic Differential Reconstruction)
運用點對互信息PMI(Pointwise Mutual Information)對每個詞賦予3維語義:evaluative (good-bad), potency (strong-weak), activity(active-passive),可分別用如下公式計算:
eval(w)=PMI(w,eval+)−PMI(w,eval−) potency(w)=PMI(w,potency+)−PMI(w,potency−) activity(w)=PMI(w,activity+)−PMI(w,activity−) ∗− 與∗+ 分別表示對應維度值的種子詞。
可以參閱Saif M. Mohammad, Bonnie J. Dorr, Graeme Hirst, and Peter D. Turney. 2013. Computing lexical contrast. Computational Linguistics, 39(3):555–590.