PMI（point wise mutual information)筆記

原創

2018-09-11 04:54

PMI主要可以用來衡量兩個詞之間的關聯度(word association)

可以參考論文

Church K W, Hanks P. Word association norms, mutual information, and lexicography [J]. Computational linguistics, 1990, 16(1): 22-29.

大概是這麼個思想，核心就是下面的公式

其中x,y分別代表一個單詞。

直接給例子:

1.要有大量的文本資料，稱爲Docs,裏面的單詞總數爲N

2.計算set和from的關聯程度也就是PMI值，記爲PMI(set,from)

3.分別求P(set,from),P(set),P(from)

P(set) = set在Docs中出現的次數 / N

P(from) = from在Docs中出現的次數 / N

P(set,from) = set和from在Docs共現的次數/N

set和from共現的次數（簡稱Co(set,from))計算方法:

要設定一個窗口長度w，假如我們設定爲5

那麼如果有這麼個句子 we set from xx from xx in chinese（額亂編的不符合語法的哈哈）

從set開始（包括set）長度爲5的窗口裏的單詞爲 set from xx from xx(5個單詞）

那麼Co(set,from) = 2, 因爲 set from xx from xx set from xx from xx

如果它們在一個窗口裏面的共現在次數超過1也就是Co(set,from)>=1的話，需要做標準化處理

Co(set,from) = Co(set,from)/(w-1) 爲了保證它不超過1，不然就不能保證 P(set,from) <= P(set)了

4.代入圖片中的公式就可以求得PMI(set,from)

需要注意的是，上面的set from是有順序關係的，也就是PMI(set,from) != PMI(from,set) ，根據具體需要要忽略順序關係也是可以的，只要分別求出以兩個單詞爲首的共現度然後求和就可以了。

鈷（套，從）= CO（套，從）/（W-1）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.