PMI主要可以用來衡量兩個詞之間的關聯度(word association)
可以參考論文
Church K W, Hanks P. Word association norms, mutual information, and lexicography [J]. Computational linguistics, 1990, 16(1): 22-29.
大概是這麼個思想,核心就是下面的公式
其中x,y分別代表一個單詞。
直接給例子:
1.要有大量的文本資料,稱爲Docs,裏面的單詞總數爲N
2.計算set和from的關聯程度也就是PMI值,記爲PMI(set,from)
3.分別求P(set,from),P(set),P(from)
P(set) = set在Docs中出現的次數 / N
P(from) = from在Docs中出現的次數 / N
P(set,from) = set和from在Docs共現的次數/N
set和from共現的次數(簡稱Co(set,from))計算方法:
要設定一個窗口長度w,假如我們設定爲5
那麼如果有這麼個句子 we set from xx from xx in chinese(額亂編的不符合語法的 哈哈)
從set開始(包括set)長度爲5的窗口裏的單詞爲 set from xx from xx(5個單詞)
那麼Co(set,from) = 2, 因爲 set from xx from xx set from xx from xx
如果它們在一個窗口裏面的共現在次數超過1也就是Co(set,from)>=1的話,需要做標準化處理
Co(set,from) = Co(set,from)/(w-1) 爲了保證它不超過1,不然就不能保證 P(set,from) <= P(set)了
4.代入圖片中的公式就可以求得PMI(set,from)
需要注意的是,上面的set from是有順序關係的,也就是PMI(set,from) != PMI(from,set) ,根據具體需要要忽略順序關係也是可以的,只要分別求出以兩個單詞爲首的共現度然後求和就可以了。