面向語義對比分析的詞嵌入

文獻:Chen Z, Lin W, Chen Q, et al. Revisiting Word Embedding for Contrasting Meaning[C] ACL 2015: 106-115.

基本思想

現有的詞嵌入模型都是建立在“分佈式語義”的假設之上,即“具有相似上下文的詞語具有相似語義”,而語義具有對比意義的不同詞往往具有相似的上下文. 因而,這些模型難以勝任語義對比分析的任務。

框架

提出如下框架:
圖1
(1)Top Hidden Layer負責將詞對比語義的各種嵌入表示(SCE、CRM、SDR)集成;
(2)Contrast Inference Layer 負責嵌入表示: CRM與SDR爲現有方法,MCE爲本文提出的方法。

對比語義嵌入表示方法SCE

啓發於Hinton 提出的隨機鄰域嵌入(stochastic neighbor embedding, SNE)思想“原始空間與嵌入空間中,目標詞的鄰居分佈大致相同”,本文提出SCE(stochastic constrasting embedding),SCE具有如下特徵:

  • 在原始空間與嵌入空間中the distribution of the contrasting “neighbors” to be close to the distribution of the “neighbors”

  • 利用詞典中的反義詞學習constrasting neighbors

  • 在原始空間與嵌入空間中, 詞wk 的具有對比語義鄰居詞語集與具有相似語義鄰居詞語集大致不變

wk 屬於詞wi 的鄰居的概率爲:p(wk|wi)=exp(d2i,k)|V|miexp(d2i,m)

(1)Marginal Contrasting Embedding

-子目標1:objs=(wi,wj)Smax{0,αdir+dij}

-子目標2: obja=(wi,wk)Smax{0,βdir+dik}

-綜合目標: obj=(1λ)objs+λobja

目標1中的dij 表示目標詞wi 與其同義詞wj 之間的距離,dir 表示目標詞wi 與其隨機無關詞wr 之間的距離;
目標2中的dij 表示目標詞wi 與其反義詞wk 之間的距離,dir 表示目標詞wi 與其隨機無關詞wr 之間的距離.

(2)SDR(Semantic Differential Reconstruction)

運用點對互信息PMI(Pointwise Mutual Information)對每個詞賦予3維語義:evaluative (good-bad), potency (strong-weak), activity(active-passive),可分別用如下公式計算:

  • eval(w)=PMI(w,eval+)PMI(w,eval)
  • potency(w)=PMI(w,potency+)PMI(w,potency)
  • activity(w)=PMI(w,activity+)PMI(w,activity)

    + 分別表示對應維度值的種子詞。
    可以參閱Saif M. Mohammad, Bonnie J. Dorr, Graeme Hirst, and Peter D. Turney. 2013. Computing lexical contrast. Computational Linguistics, 39(3):555–590.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章