特徵選擇之互信息

對於事件A和事件B同時出現的,一種信息論的描述方法就是互信息,計算方式如下


其意義:由於事件A發生與事件B發生相關聯而提供的信息量。

    在處理分類問題提取特徵的時候就可以用互信息來衡量某個特徵和特定類別的相關性,如果信息量越大,那麼特徵和這個類別的相關性越大。反之也是成立的。

    以搜狗實驗室的語料爲例。選取金融,IT產品,體育,娛樂,股票這五個類別,通過互信息來選取詞來建立空間向量模型。在選取之前需要做的一件事是把那些只在一個類別裏的出現過的而且頻次非常低的詞需要去除,因爲這些詞註定和某個的互信息會很高而和其他類別的互信息會很低。如下:


    通過上表可以明顯看出,僅僅用互信息來選詞並不是那麼理想,爲什麼呢?仔細分析可以發現,低詞頻對於互信息的影響還是蠻大的,一個詞如果頻次不夠多,但是又主要出現在某個類別裏,那麼就會出現較高的互信息,從而給篩選帶來噪音。所以爲了避免出現這種情況可以採用先對詞按照詞頻排序取然後按照互信息大小進行排序,然後再選擇自己想要的詞,這樣就能比較好的解決找個問題。如下:

 



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章