如何知道特徵的重要性

原創

2020-06-16 12:29

我們所有人可能都面臨過這樣的問題，即從一組數據中識別相關特徵，並刪除不相關或次要的特徵不會對我們的目標變量產生太大的影響，從而爲模型提供更好的準確性。

特徵選擇是機器學習中的核心概念之一，它極大地影響模型的性能。用於訓練機器學習模型的數據功能對可達到的性能有很大的影響。

不相關或部分相關的特徵可能會對模型性能產生負面影響。

特徵選擇和數據清理應該是模型設計的第一步，也是最重要的一步。

特徵選擇是您自動或手動選擇那些對您感興趣的預測變量或輸出貢獻最大的特徵的過程。
數據中具有不相關的特徵會降低模型的準確性，並使模型基於不相關的特徵而學習。

如何選擇特徵以及在對數據建模之前執行特徵選擇有什麼好處？
·減少過度擬合：更少的冗餘數據意味着更少的基於噪聲進行決策的機會。
·提高準確性：減少誤導數據意味着提高了建模準確性。
·減少訓練時間：更少的數據點降低了算法複雜性，並且訓練速度更快。

我通過選擇所有特徵準備了一個模型，我得到了大約65％的準確度，這對預測模型來說並不是很好，在進行了一些特徵選擇和特徵工程後，我的模型代碼沒有進行任何邏輯更改，我的準確度躍升至81 ％，這非常令人印象深刻

我將分享3種易於使用的功能選擇技術，這些技術也會產生良好的效果。
1.單變量選擇
2.功能重要性
3帶有熱圖的相關矩陣

單變量選擇
可以使用統計檢驗來選擇與輸出變量關係最密切的那些特徵。
scikit-learn庫提供SelectKBest類，該類可與一組不同的統計測試一起使用，以選擇特定數量的功能。
下面的示例對非負特徵使用卡方（chi²）統計檢驗，以從“移動價格範圍預測數據集”中選擇10個最佳特徵。

功能重要性
我們可以使用模型的特徵重要性屬性來獲取數據集中每個特徵的特徵重要性。
特徵重要性爲您提供數據中每個特徵的得分，得分越高，該特徵對您的輸出變量的重要性或相關性就越高。
特徵重要性是基於樹的分類器隨附的內置類，我們將使用額外的樹分類器來提取數據集的前10個特徵。

帶有熱圖的相關矩陣
關聯說明要素如何相互關聯或與目標變量關聯。
相關可以是正的（增加一個特徵值增加目標變量的值）或負的（增加一個特徵值減少目標變量的值）
通過熱圖，可以輕鬆地確定哪些特徵與目標變量最相關，我們將使用seaborn庫繪製相關特徵的熱圖。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.