PMI(point wise mutual information)筆記

    PMI主要可以用來衡量兩個詞之間的關聯度(word association)

    可以參考論文

    Church K W, Hanks P. Word association norms, mutual information, and lexicography      [J]. Computational linguistics, 1990, 16(1): 22-29.

 

    大概是這麼個思想,核心就是下面的公式

   wKiom1Mm6qPCBQksAAAZdsPTrcA132.jpg

    其中x,y分別代表一個單詞。

    直接給例子:

    1.要有大量的文本資料,稱爲Docs,裏面的單詞總數爲N

    2.計算set和from的關聯程度也就是PMI值,記爲PMI(set,from)

    3.分別求P(set,from),P(set),P(from)

    P(set) = set在Docs中出現的次數 / N

    P(from) = from在Docs中出現的次數 / N

    P(set,from) = set和from在Docs共現的次數/N

    set和from共現的次數(簡稱Co(set,from))計算方法:

        要設定一個窗口長度w,假如我們設定爲5

        那麼如果有這麼個句子   we set from xx from xx in chinese(額亂編的不符合語法的 哈哈)

        從set開始(包括set)長度爲5的窗口裏的單詞爲 set from xx from xx(5個單詞)

        那麼Co(set,from) = 2, 因爲 set from xx from xx   set from xx from xx

        如果它們在一個窗口裏面的共現在次數超過1也就是Co(set,from)>=1的話,需要做標準化處理  

        Co(set,from) = Co(set,from)/(w-1)  爲了保證它不超過1,不然就不能保證 P(set,from) <= P(set)了

    4.代入圖片中的公式就可以求得PMI(set,from)

 

    需要注意的是,上面的set from是有順序關係的,也就是PMI(set,from) != PMI(from,set) ,根據具體需要要忽略順序關係也是可以的,只要分別求出以兩個單詞爲首的共現度然後求和就可以了。

(套= CO(套/W-1
   
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章