feature selection (互信息去掉和類標籤無關特徵 + PCA)

原創

2020-06-01 22:01

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

真實的訓練數據總是存在各種各樣的問題：

1、[冗餘] 比如拿到一個汽車的樣本，裏面既有以“千米/每小時”度量的最大速度特徵，也有“英里/小時”的最大速度特徵，顯然這兩個特徵有一個多餘。

2、 [冗餘] 拿到一個數學系的本科生期末考試成績單，裏面有三列，一列是對數學的興趣程度，一列是複習時間，還有一列是考試成績。我們知道要學好數學，需要有濃厚的興趣，所以第二項與第一項強相關，第三項和第二項也是強相關。那是不是可以合併第一項和第二項呢？

3、[過度擬合] 拿到一個樣本，特徵非常多，而樣例特別少，這樣用迴歸去直接擬合非常困難，容易過度擬合。比如北京的房價：假設房子的特徵是（大小、位置、朝向、是否學區房、建造年代、是否二手、層數、所在層數），搞了這麼多特徵，結果只有不到十個房子的樣例。要擬合房子特徵->房價的這麼多特徵，就會造成過度擬合。

4、 [冗餘] 這個與第二個有點類似，假設在IR中我們建立的文檔-詞項矩陣中，有兩個詞項爲“learn”和“study”，在傳統的向量空間模型中，認爲兩者獨立。然而從語義的角度來講，兩者是相似的，而且兩者出現頻率也類似，是不是可以合成爲一個特徵呢？

5、 [噪音] 在信號傳輸過程中，由於信道不是理想的，信道另一端收到的信號會有噪音擾動，那麼怎麼濾去這些噪音呢？

回顧我們之前介紹的《模型選擇和規則化》，裏面談到的特徵選擇的問題。但在那篇中要剔除的特徵主要是和類標籤無關的特徵。比如“學生的名字”就和他的“成績”無關，使用的是互信息的方法。

而這裏的特徵很多是和類標籤有關的，但裏面存在噪聲或者冗餘。在這種情況下，需要一種特徵降維的方法來減少特徵數，減少噪音和冗餘，減少過度擬合的可能性。

下面探討一種稱作主成分分析（PCA）的方法來解決部分上述問題。PCA的思想是將n維特徵映射到k維上（k<n），這k維是全新的正交特徵。這k維特徵稱爲主元，是重新構造出來的k維特徵，而不是簡單地從n維特徵中去除其餘n-k維特徵。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

feature selection (互信息去掉和類標籤無關特徵 + PCA)

.py to .exe (by py2exe)

主題模型是什麼、工作原理【基礎概念】※※※※※

Pearson+Cosine Similarity+K-Nearest Neighbor 代碼

LDA 【介紹】※※※

Weighted Slope One （python實現）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

feature selection (互信息 去掉和類標籤無關特徵 + PCA)

feature selection (互信息去掉和類標籤無關特徵 + PCA)