特徵工程系列:特徵構造之概覽篇

原創: JunLiang 木東居士  1周前

特徵工程系列:特徵構造之概覽篇

本文爲數據茶水間羣友原創,經授權在本公衆號發表。

關於作者:JunLiang,一個熱愛挖掘的數據從業者,勤學好問、動手達人,期待與大家一起交流探討機器學習相關內容~

0x00 前言

數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。由此可見,特徵工程在機器學習中佔有相當重要的地位。在實際應用當中,可以說特徵工程是機器學習成功的關鍵。

那特徵工程是什麼?

特徵工程是利用數據領域的相關知識來創建能夠使機器學習算法達到最佳性能的特徵的過程。

特徵工程又包含了 Data PreProcessing(數據預處理)、Feature Extraction(特徵提取)、Feature Selection(特徵選擇)和 Feature construction(特徵構造)等子問題,本章內容主要討論特徵構造的方法。

創造新的特徵是一件十分困難的事情,需要豐富的專業知識和大量的時間。機器學習應用的本質基本上就是特徵工程。
——Andrew Ng

0x01 特徵構造介紹

特徵構造意味着從現有的數據中構造額外特徵,這些特徵通常分佈在多張相關的表中。特徵構造需要從數據中提取相關信息並將其存入單張表格中,然後被用來訓練機器學習模型。這需要我們花大量的時間去研究真實的數據樣本,思考問題的潛在形式和數據結構,同時能夠更好地應用到預測模型中。

特徵構建需要很強的洞察力和分析能力,要求我們能夠從原始數據中找出一些具有物理意義的特徵。對於表格數據,特徵構建意味着將特徵進行混合或組合以得到新的特徵,或通過對特徵進行分解或切分來構造新的特徵;對於文本數據,特徵夠自己按意味着設計出針對特定問題的文本指標;對於圖像數據,這意味着自動過濾,得到相關的結構。

特徵構造是一個非常耗時的過程,因爲每個新的特徵通常需要幾步才能構造,特別是當使用多張表的信息時。我們可以將特徵構造的操作分爲兩類:“轉換”和“聚合”。

0x02 轉換

通過從一或多列中構造新的特徵,“轉換”作用於單張表(在 Python 中,表是一個 Pandas DataFrame )。

例子:客戶表信息如下

通過查找 joined 列中的月份或是自然對數化 income 列的數據來構造新的特徵。這些都是轉換操作,因爲它們只用到了一張表的信息。

0x03 聚合

“聚合”是跨表實現的,並使用一對多的關聯來對觀測值分組,然後計算統計量。

例子:若有另外一張包含客戶貸款信息的表格,其中每個客戶可能有多項貸款,我們便可以計算每個客戶貸款的平均值、最大值和最小值等統計量。
這個過程包括根據不同客戶對貸款表進行分組並計算聚合後的統計量,然後將結果整合到客戶數據中。以下是我們在 Python 中使用 Pandas 庫執行此操作。

0x04 特徵構造具體方法

以下機器學習中特徵構造的常用方法:

注:由於圖像和語音涉及的專業知識比較多,此處不對圖像特徵構造和語音特徵構造展開討論。

0x0FF 總結

特徵構造是一個非常耗時的過程,因爲每個新的特徵通常需要幾步才能構造,特別是當使用多張表的信息時。我們可以將特徵構造的操作分爲兩類:“轉換”和“聚合”。

很多機器學習比賽都是直接給出了訓練集(特徵+類標),我們可以對給出的特徵進行“轉換”操作,構造更多的特徵。而在實際的工作中,很多時候我們都沒有現成的特徵,需要自己進行“聚合”操作從多個原始數據表中構造出模型所需要的特徵。

例如,用戶行爲數據表中每條記錄爲某個用戶的一次瀏覽行爲或一次點擊行爲,我們需要通過“聚合”操作構造出用戶的行爲特徵(如:用戶最近一次瀏覽的時長、用戶最近一次登錄的點擊次數等特徵),然後再使用“轉換”操作來構造更多特徵,最後再使用這些特徵訓練模型。

後續文章將對特徵構造展開詳細討論,歡迎大家留言討論~

預告:下一篇文章將介紹聚合特徵構造以及轉換特徵構造。

參考文獻

[1] Feature Tools:可自動構造機器學習特徵的Python庫. https://www.jiqizhixin.com/articles/2018-06-21-2  

特徵工程系列文章

特徵工程系列:數據清洗

特徵工程系列:特徵篩選的原理與實現(上)

特徵工程系列:特徵篩選的原理與實現(下)

特徵工程系列:特徵預處理(上)

特徵工程系列:特徵預處理(下)

 

熱門文章

直戳淚點!數據從業者權威嘲諷指南!

AI研發工程師成長指南

數據分析師做成了提數工程師,該如何破局?

算法工程師應該具備哪些工程能力

數據團隊思考:如何優雅地啓動一個數據項目!

數據團隊思考:數據驅動業務,比技術更重要的是思維的轉變

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章