機器學習實戰-特徵選擇3種方案

目錄

特徵選擇作用

特徵選擇從何入手

特徵選擇的三種方法


上一篇:機器學習實戰-開發環境安裝

特徵選擇,這是一個在機器學習中非常重要的東西,那些好的特徵可以從整體上來提升模型的性能,可以幫助我們更加清晰的理解真個數據的特點及底層結構,對於後面的模型,算法有着非常重要的作用。

備註:在很多情況下,特徵選擇並非必要的,業務特徵的選擇有很強烈的業務契合度在裏面,代表着這些特徵在業務中的重要性也是很高,如果去掉,很有可能會有一定的副作用,但是無法說清這個副作用,這個需要進入到訓練中去訓練數據來驗證這個效果。

機器學習實戰-特徵選擇

 

本文章節

1、特徵選擇作用

2、特徵選擇從何入手

3、特徵選擇的三種方法

特徵選擇作用

機器學習實戰-特徵選擇

 

這裏有些同學可能是剛開始接觸做特徵選擇,並不是很瞭解爲什麼要做特徵選擇,做了有什麼作用?是否只是簡單的減少特徵?是否這樣子做了,對結果有沒有影響?

這裏每個人都有自己的理解,小編根據自己的經驗,總結有兩個,參考一下:

1、減少特徵的數量,降低維度,這樣子可以在一定程度上加強模型的泛化能力,從而儘可能的減少過擬合,這裏要注意一下:過擬合只能減少,無法消滅,好比這個世上,其實沒有最優解的一樣,擁有的只有不滿足。

2、在一定程度上降低特徵後,從直觀上來看,很多時候可以一目瞭然看到特徵與特徵值之間的關聯,這個場景,需要實際業務的支撐,生產上的業務數據更加明顯,有興趣的同學可以私信我加羣,一起研究。

特徵選擇從何入手

這是一個非常重要的問題,有很多同學可能剛開始接觸或者想往這方面發展,拿到了一組數組,很多時候就是直接拿了一個算法,直接做分類或者做迴歸或者做聚類,但是這樣子正常情況下,數據會存在很多噪音(科普:噪音可以理解爲一些垃圾數據,對我們的結果或者期望造成了干擾),這樣子的數據不會很好。

那如果我要特徵選擇呢,又不知從何入手?

這裏有兩個方法,可以作爲參考:

1、從業務範圍分析,直接觀察特徵與業務的相關性,這點非常重要,那些對業務有着直接指標的數據,建議保留,否則,可以考慮手動刪除掉。

2、從發散特性分析,這個很多同學畢業後,就忘了這個東西,簡單用成語一個成語來理解一下:一成不變。如果這個特徵滿足這種條件,那證明不發散,其實在數學中,用方差來計算的,這種不發散的特徵,基本就沒有什麼差異性了,例如某一項特徵都是0,怎麼有影響呢,這樣子的特徵其實就沒什麼用。

機器學習實戰-特徵選擇

 

特徵選擇的三種方法

進行特徵選擇的時候,其實有一定的方法或者規律可言,總結起來有三個

1、過濾法:目前這是小編用的最普遍的方法,因爲最簡單,與業務契合度最高,操作過程就是我可以設定某一個閾值,然後根據數據的發散情況或者與業務是否相關來打分,一般都是當低於這個閾值的時候,就可以考慮過濾掉。

2、嵌入法:這個方法無法直接從字面來理解,但是其實也是很好的東西,小編把它叫做過濾法的進化版。如何理解這個進化版,原先我們採用過濾法的時候,很多時候是人肉直接擼一擼,但是這時候特徵多呢,給你200個特徵,然後我就可能瞎了或者手廢掉了,此時的做法是此案用機器學習的算法或者模型來訓練,然後可以得到各個特徵的權重值,做個排序,幹掉那些排序地的,例如樹的特徵選擇,這些算法,後面會逐一介紹。

3、包裝法:聽這個名字,是不是也是很迷糊,其實這個也比較好理解,不斷循環訓練模型,進行目標函數的計算,一般我們是採用預測的效果來評分,逐一選擇一定量的特徵來做,不斷循環,得到結果進行對比,這樣就可以看到哪些特徵不好。不過這個小編比較少用,計算上比較費時費力,後面的具體算法也會介紹到。

機器學習實戰-特徵選擇

 

--END--

作者:溪雲閣

原創作品,抄襲必究。

部分圖片來源網絡,如侵權請聯繫刪除,謝謝!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章