機器學習面試考點大雜燴

^_- 更新中 ……


一、決策樹

1 劃分規則

1.1 如何選擇最優劃分屬性? 劃分過程中,在每一次劃分時,選取能使其“不純度”減小最大的屬性。

1.2 常用的衡量“不純度”的指標。信息增益,信息增益比(信息增益率),基尼係數。

1.3 以上三種指標的具體公式

  1)信息增益(對應算法:ID3)

  

  先介紹一下信息熵的公式:

Entropy(D)=i=1Ip(iD)log(p(iD))Entropy(D) = -\sum_{i=1}^{I}p(i|D)log(p(i|D))

  其中,DD 表示當前樣本集合;II 爲樣本類別數;p(iD)p(i|D) 爲第 ii 類樣本的佔比。

  信息增益 (Information Gain):

Gain(D)=Entropy(D)v=1VDvDEntropy(Dv)Gain(D) = Entropy(D) -\sum_{v=1}^{V}\frac{|D^v|}{|D|}Entropy(D^v)

  其中,D|D| 表示當前樣本總的數目;VV 爲根據某一屬性劃分後的分支數(類數);Dv|D^v| 爲劃分後第 vv 類的樣本數目。

  2)信息增益比(對應算法:C4.5)

  信息增益比是對信息增益的改進,因爲信息增益偏向於例如 ID 這樣的屬性。

Gain_ratio(D)=Gain(D)IV(D)Gain\_ratio(D)=\frac{Gain(D)}{IV(D)}

  其中,

IV(D)=v=1VDvDlogDvDIV(D)={-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log\frac{|D^v|}{|D|}}

  信息增益比的使用對可取值數目較少的屬性有所偏好,在 C4.5 算法並沒有直接選擇增益比最大的候選劃分屬性,而是使用了一個啓發式方法:先從候選劃分屬性中找出增益高於平均水平的屬性,再從中選擇增益比最高的。

  3)基尼係數(對應算法:CART)

  CART 決策樹選擇“基尼係數”來選擇劃分屬性。

  直觀來說,Gini(D) 反應了從數據集 D 中隨機抽取兩個樣本,不屬於同一類樣本的概率。

Gini(D)=1i=1Ip(iD)2 Gini(D) = 1-\sum_{i=1}^{I}p(i|D)^2

  其中,DD 表示當前樣本集合;II 爲樣本類別數;p(iD)p(i|D) 爲第 ii 類樣本的佔比。

1.4 決策樹中,連續值如何處理?

  最簡單的策略是採用二分法;將某連續屬性的值進行排序,假設有n個值,插入n-1個切分點,相當於每相鄰兩個值之間插入一個切分點,插入到切分的值一般爲這兩者值的平均值。然後遍歷切分點的值,例如遍歷到的值爲 num,那麼將大於num的作爲一類,小於num的作爲一類。根據兩類求解指標(如信息增益),並取最優指標對應的切分點爲作爲屬性的切分點。

1.5 連續屬性可多次作爲劃分屬性。與離散屬性不同,若當前節點劃分屬性爲連續屬性,該屬性還可以作爲其後代節點的劃分屬性。

二、邏輯迴歸

補充:邏輯迴歸原理詳解

2.1 簡單描述一下邏輯迴歸的原理

  邏輯迴歸模型:假設數據服從伯努利分佈,通過極大化似然函數的方法,運用梯度下降來對參數進行優化,最後通過sigmoid函數將其轉化爲概率形式,並通過設定閾值實現二分類。

2.2 邏輯迴歸概率公式整理

P(yx;θ)=(hθ(x))y(1hθ(x))1yP(y|x;\theta)=(h_{\theta}(x))^{y}(1-h_{\theta}(x))^{1-y}

2.3 最大似然估計

  爲使模型更好,鑰匙的預測值更接近真實值,即條件概率越大越好;對於m個樣本,可以通過 最大似然估計,得到最優解。

L(Θ)=i=1mP(yixi;θ)=i=1m(hθ(xi)))yi(1hθ(xi))1yiL(\Theta) = \sum_{i=1}^{m}P(y_i|x_i;\theta)= \sum_{i=1}^{m}(h_{\theta}(x_i)))^{y_i}(1-h_{\theta}(x_i))^{1-y_i}

2.4 通過對數將連乘轉爲連加

  便於計算,且並不影響其單調性

l(Θ)=logL(Θ)=i=1m(y(i)log(hΘ(x(i)))+(1y(i))log(1hΘ(x(i))))l(\Theta) =logL(\Theta) =\sum_{i=1}^{m}(y^{(i)}log(h_{\Theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\Theta}(x^{(i)})))

2.5 邏輯迴歸的損失函數

  計算損失,即m個樣本的平均損失,將求和的式子乘以1m\frac{1}{m},這裏將最大似然估計(以上式子)轉化爲最小 損失函數,便於利用梯度下降法求解。

J(Θ)=1mi=1m(y(i)log(hΘ(x(i)))+(1y(i))log(1hΘ(x(i)))) J(\Theta) = -\frac{1}{m}\sum_{i=1}^{m}(y^{(i)}log(h_{\Theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\Theta}(x^{(i)})))
2.6 損失函數求導

  對損失函數求導,用於更新各參數。

J(Θ)Θj=1mi=1m(hΘ(x(i)y(i))xj(i) \frac{\partial J(\Theta)}{\partial \Theta_j}= \frac{1}{m}\sum_{i=1}^{m}(h_{\Theta}(x^{(i)}-y^{(i)})x_j^{(i)}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章