統計自然語言處理--互信息

原創

2019-02-22 21:20

今天六一，C小加不在身邊，混球啊。任務需要在看曼寧的《統計自然語言處理基礎》。然後用到互信息，每次我覺得好高深的名字，做下去的時候就發現沒有那麼難。

搭配

搭配由有限的複合構詞法所描述。

識別搭配對的方法有三種：1.使用頻率信息的搭配識別。2.基於含義和主詞搭配詞之間的距離識別。3.基於假設測試和互信息的識別。

1.頻率

將語料過濾後得到的動詞，名詞，之間進行兩兩配對，統計每個詞語在一個句子，或在一個段落中出現的次數，即爲頻率。

2.均值和方差

由於兩個詞之間的距離是可以變化的，計算兩個詞之間的偏移量的均值和方差。

均值就是簡單的平均偏移量。

方差衡量的是單獨的偏移量偏離均值的距離：

是同現i的偏移量，表示的是樣本偏移量的均值。

我們可以通過使用這個信息來發現搭配。具體的方法是通過尋找帶有低偏差的詞對。一個低的偏差值意味着這兩個詞通常大致相同距離出現。零偏差意味着這兩個詞總是以相同的距離出現。

方差是關於一個相對於其他詞分佈峯值情況的度量。

關於互信息

互信息的計算公式是這樣的：

MI(a,b) = log( p(ab) / (p(a)*p(b)) )

其中log的底數是2，p(x)表示x出現的概率。

好吧，好水，好簡單。。着手寫代碼了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.