feature selection (互信息 去掉和類標籤無關特徵 + PCA)

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html


 真實的訓練數據總是存在各種各樣的問題:

1、[冗餘] 比如拿到一個汽車的樣本,裏面既有以“千米/每小時”度量的最大速度特徵,也有“英里/小時”的最大速度特徵,顯然這兩個特徵有一個多餘。

2、 [冗餘] 拿到一個數學系的本科生期末考試成績單,裏面有三列,一列是對數學的興趣程度,一列是複習時間,還有一列是考試成績。我們知道要學好數學,需要有濃厚的興趣,所以第二項與第一項強相關,第三項和第二項也是強相關。那是不是可以合併第一項和第二項呢?

3、[過度擬合] 拿到一個樣本,特徵非常多,而樣例特別少,這樣用迴歸去直接擬合非常困難,容易過度擬合。比如北京的房價:假設房子的特徵是(大小、位置、朝向、是否學區房、建造年代、是否二手、層數、所在層數),搞了這麼多特徵,結果只有不到十個房子的樣例。要擬合房子特徵->房價的這麼多特徵,就會造成過度擬合。

4、 [冗餘] 這個與第二個有點類似,假設在IR中我們建立的文檔-詞項矩陣中,有兩個詞項爲“learn”和“study”,在傳統的向量空間模型中,認爲兩者獨立。然而從語義的角度來講,兩者是相似的,而且兩者出現頻率也類似,是不是可以合成爲一個特徵呢?

5、 [噪音] 在信號傳輸過程中,由於信道不是理想的,信道另一端收到的信號會有噪音擾動,那麼怎麼濾去這些噪音呢?

     回顧我們之前介紹的《模型選擇和規則化》,裏面談到的特徵選擇的問題。但在那篇中要剔除的特徵主要是和類標籤無關的特徵。比如“學生的名字”就和他的“成績”無關,使用的是互信息的方法。

     而這裏的特徵很多是和類標籤有關的,但裏面存在噪聲或者冗餘。在這種情況下,需要一種特徵降維的方法來減少特徵數,減少噪音和冗餘,減少過度擬合的可能性。

     下面探討一種稱作主成分分析(PCA)的方法來解決部分上述問題。PCA的思想是將n維特徵映射到k維上(k<n),這k維是全新的正交特徵。這k維特徵稱爲主元,是重新構造出來的k維特徵,而不是簡單地從n維特徵中去除其餘n-k維特徵。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章