特徵工程的寶典-《Feature Engineering for Machine Learning》

原創

2021-01-30 10:22

由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》（國內譯作《精通特徵工程》）一書，可以說是特徵工程的寶典，本文在知名開源apachecn組織翻譯的英文版基礎上，將原文修改成jupyter notebook格式，並增加和修改了部分代碼，測試全部通過。這個資料可以說是特徵工程的寶典，值得推薦。

資料說明

《Feature Engineering for Machine Learning》由知名開源apachecn組織翻譯，原版英文書可以在網上試讀（免費讀10天），試讀地址：

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/

這本書可以說是特徵工程的寶典，值得推薦。

本站在得到apachecn同意後，對翻譯版本進行了潤色和代碼實現，將原文修改成jupyter notebook格式，並增加和修改了部分代碼，測試全部通過，同時所有數據集已經放在百度雲下載。

翻譯代碼放在數據科學的github倉庫提供下載，倉庫地址：

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

備註：本文的翻譯版本與人民郵電出版社出版的《精通特徵工程》有所不同，屬於獨立完成。

文件目錄

一、引言
二、簡單數字的奇特技巧
三、文本數據：展開、過濾和分塊
四、特徵縮放的效果：從詞袋到 TF-IDF
五、類別特徵：機器雞時代的雞蛋計數
六、降維：使用 PCA 壓縮數據集
七、非線性特徵提取和模型堆疊
八、自動化特徵提取器：圖像特徵提取和深度學習
九、回到特徵：將它們放到一起（更新中）
附錄、線性模型和線性代數基礎

內容簡介

第 1 章從數字數據的基本特徵工程開始：過濾，合併，縮放，日誌轉換和能量轉換以及交互功能。

第 2 章和第 3 章深入探討了自然文本的特徵工程：bag-of-words，n-gram 和短語檢測。

第 4 章將 tf-idf 作爲特徵縮放的例子，並討論它的工作原理。

第 5 章討論分類變量的高效編碼技術，包括特徵哈希和 bin-counting。

第 6 章中進行主成分分析，我們深入機器學習的領域。

第 7 章將 k-means 看作一種特徵化技術，它說明了模型堆疊的有效理論。

第 8 章都是關於圖像的，在特徵提取方面比文本數據更具挑戰性。在得出深度學習是最新圖像特徵提取技術的解釋之前，我們着眼於兩種手動特徵提取技術 SIFT 和 HOG。

第 9 章中完成了一個端到端示例中的幾種不同技術，爲學術論文數據集創建了一個推薦器。
內容截圖

總結

本文將《Feature Engineering for Machine Learning》修改成jupyter notebook格式，測試全部通過，並提供下載。

翻譯代碼的倉庫地址：

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

參考

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/
https://github.com/alicezheng/feature-engineering-book
https://github.com/apachecn/feature-engineering-for-ml-zh

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

特徵工程的寶典-《Feature Engineering for Machine Learning》

資料說明

文件目錄

內容簡介

總結

參考

Python 潮流週刊#52：Python 處理 Excel 的資源

搜出來的文本：從文本生成到搜索採樣

使用Typeahead.js和PHP仿造facebook搜索框

windows遠程登錄端口需改

CDK:一款針對容器場景的多功能滲透工具

【Mysql-InnoDB系列】一 InnoDB的ACID模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結