^_- 更新中 ……
一、決策樹
1 劃分規則
1.1 如何選擇最優劃分屬性? 劃分過程中,在每一次劃分時,選取能使其“不純度”減小最大的屬性。
1.2 常用的衡量“不純度”的指標。信息增益,信息增益比(信息增益率),基尼係數。
1.3 以上三種指標的具體公式。
1)信息增益(對應算法:ID3)
先介紹一下信息熵的公式:
Entropy(D)=−i=1∑Ip(i∣D)log(p(i∣D))
其中,D 表示當前樣本集合;I 爲樣本類別數;p(i∣D) 爲第 i 類樣本的佔比。
信息增益 (Information Gain):
Gain(D)=Entropy(D)−v=1∑V∣D∣∣Dv∣Entropy(Dv)
其中,∣D∣ 表示當前樣本總的數目;V 爲根據某一屬性劃分後的分支數(類數);∣Dv∣ 爲劃分後第 v 類的樣本數目。
2)信息增益比(對應算法:C4.5)
信息增益比是對信息增益的改進,因爲信息增益偏向於例如 ID 這樣的屬性。
Gain_ratio(D)=IV(D)Gain(D)
其中,
IV(D)=−v=1∑V∣D∣∣Dv∣log∣D∣∣Dv∣
信息增益比的使用對可取值數目較少的屬性有所偏好,在 C4.5 算法並沒有直接選擇增益比最大的候選劃分屬性,而是使用了一個啓發式方法:先從候選劃分屬性中找出增益高於平均水平的屬性,再從中選擇增益比最高的。
3)基尼係數(對應算法:CART)
CART 決策樹選擇“基尼係數”來選擇劃分屬性。
直觀來說,Gini(D) 反應了從數據集 D 中隨機抽取兩個樣本,不屬於同一類樣本的概率。
Gini(D)=1−i=1∑Ip(i∣D)2
其中,D 表示當前樣本集合;I 爲樣本類別數;p(i∣D) 爲第 i 類樣本的佔比。
1.4 決策樹中,連續值如何處理?
最簡單的策略是採用二分法;將某連續屬性的值進行排序,假設有n個值,插入n-1個切分點,相當於每相鄰兩個值之間插入一個切分點,插入到切分的值一般爲這兩者值的平均值。然後遍歷切分點的值,例如遍歷到的值爲 num,那麼將大於num的作爲一類,小於num的作爲一類。根據兩類求解指標(如信息增益),並取最優指標對應的切分點爲作爲屬性的切分點。
1.5 連續屬性可多次作爲劃分屬性。與離散屬性不同,若當前節點劃分屬性爲連續屬性,該屬性還可以作爲其後代節點的劃分屬性。
二、邏輯迴歸
補充:邏輯迴歸原理詳解
2.1 簡單描述一下邏輯迴歸的原理
邏輯迴歸模型:假設數據服從伯努利分佈,通過極大化似然函數的方法,運用梯度下降來對參數進行優化,最後通過sigmoid函數將其轉化爲概率形式,並通過設定閾值實現二分類。
2.2 邏輯迴歸概率公式整理
P(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y
2.3 最大似然估計
爲使模型更好,鑰匙的預測值更接近真實值,即條件概率越大越好;對於m個樣本,可以通過 最大似然估計,得到最優解。
L(Θ)=i=1∑mP(yi∣xi;θ)=i=1∑m(hθ(xi)))yi(1−hθ(xi))1−yi
2.4 通過對數將連乘轉爲連加
便於計算,且並不影響其單調性
l(Θ)=logL(Θ)=i=1∑m(y(i)log(hΘ(x(i)))+(1−y(i))log(1−hΘ(x(i))))
2.5 邏輯迴歸的損失函數
計算損失,即m個樣本的平均損失,將求和的式子乘以m1,這裏將最大似然估計(以上式子)轉化爲最小 損失函數,便於利用梯度下降法求解。
J(Θ)=−m1i=1∑m(y(i)log(hΘ(x(i)))+(1−y(i))log(1−hΘ(x(i))))
2.6 損失函數求導
對損失函數求導,用於更新各參數。
∂Θj∂J(Θ)=m1i=1∑m(hΘ(x(i)−y(i))xj(i)