統計自然語言處理--互信息

 今天六一,C小加不在身邊,混球啊。任務需要在看曼寧的《統計自然語言處理基礎》。然後用到互信息,每次我覺得好高深的名字,做下去的時候就發現沒有那麼難。

搭配

搭配由有限的複合構詞法所描述。

識別搭配對的方法有三種:1.使用頻率信息的搭配識別。2.基於含義和主詞搭配詞之間的距離識別。3.基於假設測試和互信息的識別。

1.頻率

將語料過濾後得到的動詞,名詞,之間進行兩兩配對,統計每個詞語在一個句子,或在一個段落中出現的次數,即爲頻率。

2.均值和方差 

   由於兩個詞之間的距離是可以變化的,計算兩個詞之間的偏移量的均值和方差。

均值就是簡單的平均偏移量。

方差衡量的是單獨的偏移量偏離均值的距離:


 
是同現i的偏移量,表示的是樣本偏移量的均值。 

     我們可以通過使用這個信息來發現搭配。具體的方法是通過尋找帶有低偏差的詞對。一個低的偏差值意味着這兩個詞通常大致相同距離出現。零偏差意味着這兩個詞總是以相同的距離出現。

   方差是關於一個相對於其他詞分佈峯值情況的度量。

關於互信息

互信息的計算公式是這樣的:

MI(a,b) = log( p(ab) / (p(a)*p(b)) )

其中log的底數是2p(x)表示x出現的概率。

好吧,好水,好簡單。。着手寫代碼了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章