機器學習特徵工程讀書筆記-前言

簡介

特徵工程處於哪個步驟呢?

我覺得整個機器學習流程主要可以分爲 數據採集數據探索數據預處理建模模型分析與優化部署使用
特徵工程大概位於數據預處理和建模之間,特徵工程與數據預處理是有交叉的,爲啥這麼說呢?往下看

一般來說,我們採集的數據時無法直接用於建模的,其中可能含有一些髒數據,比如缺失值、異常值或者不一致的值,這些髒數據可以通過數據探索和數據預處理來進行處理的。
但是經過數據預處理後的乾淨數據就可以直接用於建模嗎?很多時候都是不可以的。我們可能需要從這些乾淨的數據中進行降維或者利用多個屬性生產其他的更復雜的特徵,總之,經過特徵工程後剩下的數據屬性就是可以直接用於建模的屬性

特徵工程的定義

特徵工程是指從原始數據中提取特徵並將其轉換爲適合機器學習模型的格式

正確的特徵要視模型和數據的具體情況而定,而模型和數據時千差萬別的,很難從各種項目中歸納出特徵工程的實踐原則。

但是特徵工程是有一些基本原則的。

比較喜歡的一段話:

掌握一門學科不僅僅是要了解其中的定義以及能夠推導公式。僅知道它的工作機制和用途是不夠的,你還必須理解它爲什麼這樣設計,它與其他技術有何聯繫,以及每種方法的優點和缺點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章