由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(國內譯作《精通特徵工程》)一書,可以說是特徵工程的寶典,本文在知名開源apachecn組織翻譯的英文版基礎上,將原文修改成jupyter notebook格式,並增加和修改了部分代碼,測試全部通過。這個資料可以說是特徵工程的寶典,值得推薦。
資料說明
《Feature Engineering for Machine Learning》由知名開源apachecn組織翻譯,原版英文書可以在網上試讀(免費讀10天),試讀地址:
https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/
這本書可以說是特徵工程的寶典,值得推薦。
本站在得到apachecn同意後,對翻譯版本進行了潤色和代碼實現,將原文修改成jupyter notebook格式,並增加和修改了部分代碼,測試全部通過,同時所有數據集已經放在百度雲下載。
翻譯代碼放在數據科學的github倉庫提供下載,倉庫地址:
https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering
備註:本文的翻譯版本與人民郵電出版社出版的《精通特徵工程》有所不同,屬於獨立完成。
文件目錄
-
一、引言
-
二、簡單數字的奇特技巧
-
三、文本數據:展開、過濾和分塊
-
四、特徵縮放的效果:從詞袋到 TF-IDF
-
五、類別特徵:機器雞時代的雞蛋計數
-
六、降維:使用 PCA 壓縮數據集
-
七、非線性特徵提取和模型堆疊
-
八、自動化特徵提取器:圖像特徵提取和深度學習
-
九、回到特徵:將它們放到一起(更新中)
- 附錄、線性模型和線性代數基礎
內容簡介
第 1 章從數字數據的基本特徵工程開始:過濾,合併,縮放,日誌轉換和能量轉換以及交互功能。
第 2 章和第 3 章深入探討了自然文本的特徵工程:bag-of-words,n-gram 和短語檢測。
第 4 章將 tf-idf 作爲特徵縮放的例子,並討論它的工作原理。
第 5 章討論分類變量的高效編碼技術,包括特徵哈希和 bin-counting。
第 6 章中進行主成分分析,我們深入機器學習的領域。
第 7 章將 k-means 看作一種特徵化技術,它說明了模型堆疊的有效理論。
第 8 章都是關於圖像的,在特徵提取方面比文本數據更具挑戰性。在得出深度學習是最新圖像特徵提取技術的解釋之前,我們着眼於兩種手動特徵提取技術 SIFT 和 HOG。
第 9 章中完成了一個端到端示例中的幾種不同技術,爲學術論文數據集創建了一個推薦器。
內容截圖
總結
本文將《Feature Engineering for Machine Learning》修改成jupyter notebook格式,測試全部通過,並提供下載。
翻譯代碼的倉庫地址:
https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering
參考
https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/
https://github.com/alicezheng/feature-engineering-book
https://github.com/apachecn/feature-engineering-for-ml-zh