百面機器學習總結

一 特徵工程
1 特徵歸一化
爲什麼對數值類型特徵做歸一化: 使不同指標之間具有可比性,將所有特徵統一到一個大致相同的數值區間內。
常用方法:
①線性函數歸一化:使結果映射到【0,1】的範圍,對原始數據等比縮放
X_norm = (X-X_max)/(X_max-X_min)
②零-均值歸一化:將原始數據映射到均值爲0,標準差爲1的分佈上
z=(X-u)/theta
(通過梯度下降法求解的模型通常是需要歸一化的,對決策樹不適用,決策樹在進行節點分裂時主要依據數據集D關於特徵x的信息增益比)

2 類別型特徵
①序號編碼:通常用於處理類別間具有大小關係的數據。高收入(3),中收入(2),低收入(1).
②獨熱編碼:處理類別間不具有大小關係的特徵。例如男(1,0),女(0,1)。
③二進制編碼:先用序號編碼賦予每一個類別ID,然後將類別ID對應的二進制編碼作爲結果。(二進制編碼本質上是利用二進制對ID
進行哈希映射,最終得到0/1特徵向量,且維數少於獨熱編碼,節省了存儲空間)

3 組合特徵/高維組合特徵的處理
爲了提高擬合能力,可將兩個特徵組成二階特徵。這種組合看起來沒有任何問題,但當引入ID類型的特徵時,問題就出現了
若用戶數量爲m,物品數量爲n,那麼需要學習的參數規模爲mn.在互聯網環境下,用戶數量和物品數量都可以達到千萬量級,
幾乎無法學習m
n規模的參數。 將用戶和物品分別用k維的低維向量表示,需要學習的參數規模變爲mk+nk。(等價於矩陣分解)

給定原始輸入該如何有效地構造決策樹? 採用梯度提升決策樹,該方法的思想是每次都在之前構建的決策樹的殘差上構建下一棵決策樹。

4 文本表示模型
①詞袋模型和N-gram模型
將整段文本以詞爲單位切分開,每篇文章可以表示成一個長向量,向量中的每一維代表一個單詞,該維對應的權重則反映了這個詞在
原文章的重要程度。
TF-IDF(t,d)=TF(t,d)IDF(t);
其中TF(t,d)爲單詞t在文檔d中出現的頻率,IDF(t)是逆文檔頻率
IDF(t)=log(文章總數/包含t的文檔總數+1)
通常,可以將連續出現的n(n<=N)個詞組成的詞組(N-gram)也作爲一個單獨的特徵放到向量表示中去,構成N-gram模型。
②主題模型
③詞嵌入與深度學習模型
詞嵌入是一類將詞向量化的模型的統稱,核心思想是將每個詞都映射成低維空間(通常K=50-300維)上的一個稠密向量。
如果一篇文檔有N個詞,就可以用一個N
K維的矩陣來表示這篇文檔。
深度學習模型爲我們提供了一種自動進行特徵工程的方式,模型中的每個隱層都可以認爲對應着不同抽象層次的特徵。

三 經典算法
3 決策樹
決策樹是一種自上而下,對樣本數據進行樹形分類的過程,由節點和有向邊組成。結點分爲內部結點和葉結點,其中每個內部結點
表示一個特徵或屬性,葉結點表示類別。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章