機器學習面試點雜記

原創

2019-07-07 14:10

本文用於自己整理機器學習相關概念與原理，如有錯誤歡迎在評論裏指正！～

文章目錄

熵

信息量： $I(x_i)=-log(p(x_i))$
熵： $H(x)=-\sum_i^np(x_i)log(p(x_i))$
KL散度(相對熵)： $D_{KL}(p||q)=\sum_i^np(x_i)(I_q(x_i)-I_p(x_i)))=\sum_i^np(x_i)log\frac{p(x_i)}{q(x_i)}=-H(x)+[-\sum_i^np(x_i)log(q(x_i))]$
交叉熵： $H(p,q)=-\sum_i^np(x_i)log(q(x_i))$

參數模型與非參數模型

參考博客

SVM

幾何間隔： $\gamma=\frac{2}{||\omega||}$
約束條件： $y_i(\omega^Tx_i+b)\geq1, ( i=1,2,...,m)$

1. 原始問題

硬間隔(結構風險)：

$\min_{\omega,b} \frac{1}{2}||\omega||^2$
$y_i(\omega^Tx_i+b)\geq1, ( i=1,2,...,m)$

軟間隔(結構風險+經驗風險)：

$\min_{\omega,b} \frac{1}{2}||\omega||^2+C\sum_{i=1}^m\xi_i$
$y_i(\omega^Tx_i+b)\geq1-\xi_i, ( i=1,2,...,m)$

2. 拉格朗日函數

拉格朗日函數： $L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2+\sum_{i=1}^m\alpha_i(1-y_i(\omega^Tx_i+b))$
拉格朗日原始問題： $\min_{\omega,b}\max_\alpha L(\omega,b,\alpha)$
拉格朗日對偶問題： $\max_\alpha\min_{\omega,b} L(\omega,b,\alpha)$

3. 對偶問題

$L(\omega,b,\alpha)$ 分別對 $\omega$ 和 $b$ 求偏導：
$\omega=\sum_{i=1}^m\alpha_iy_ix_i$
$0=\sum_{i=1}^m\alpha_iy_i$

硬間隔對偶問題即爲：

$\max_{\alpha} \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$
對於 $i=1,2,...,m$ ：
- $\sum_{i=1}^m\alpha_iy_i=0$
- $\alpha_i\geq 0$

軟間隔對偶問題即爲：

$\max_{\alpha} \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$
對於 $i=1,2,...,m$ ：
- $\sum_{i=1}^m\alpha_iy_i=0$
- $C\geq \alpha_i\geq 0$

4. 轉化爲對偶問題的好處

不等式約束轉化爲等式約束
方便引入核函數
降低問題複雜度：
a. 原始問題中，複雜度與樣本的維度 $\omega$ 有關；對偶問題中，複雜度只與樣本數量 $m$ 有關。
b. 係數 $\alpha$ 僅在支持向量中非0，其它全部爲0。

5. 合頁損失函數

軟間隔最大化，則有合頁損失函數： $L(y(\omega x+b))=[1-y(\omega x+b)]_+$
優化目標爲： $\min \sum_{i=i}^m[1-y_i(\omega x_i+b)]_++\lambda||\omega||^2$

6. 多分類SVM

ovr：訓練 $k$ 個分類器，總體速度較快
- 訓練單個模型時，相對速度較慢
- 類別不對稱，可採用較大的懲罰因子C
- 當有新的類別加進來時，需要對所有的模型進行重新訓練
ovo：訓練 $\frac{k(k-1)}{2}$ 個分類器，總體速度較慢
- 在訓練單個模型時，相對速度較快
- 當有新的類別加進來時，不需要重新訓練所有的模型

7. 高斯核函數

參考博客

LR

1. 二項邏輯迴歸

對數機率爲輸入 $x$ 的線性函數： $logit(P(Y=1|x))=\frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega x$
條件概率分佈爲：

$logit(P(Y=1|x))=\frac{e^{\omega x}}{1+e^{\omega x}}$
$logit(P(Y=0|x))=\frac{1}{1+e^{\omega x}}$

2. 多項邏輯迴歸(K項)

第 $i$ 項與第 $K$ 項的對數概率比： $\frac{P(Y=i|x)}{P(Y=K|x)}=\omega_i x$
再根據總概率和爲1，多項邏輯迴歸的條件概率分佈爲：

$logit(P(Y=i|x))=\frac{e^{\omega_i x}}{1+\sum_{i=1}^{K-1}e^{\omega x}}$
$logit(P(Y=K|x))=\frac{1}{1+\sum_{i=1}^{K-1}e^{\omega x}}$

3. 損失函數

似然函數： $\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
對數似然： $L(\omega)=\sum_{i=1}^N[y_iln\pi(x_i)+(1-y_i)ln(1-\pi(x_i))]$
損失函數： $J(\omega)=-\frac{1}{N}\sum_{i=1}^N[y_iln\pi(x_i)+(1-y_i)ln(1-\pi(x_i))]$ ，本質上就是衡量真實分佈和預測分佈之間的交叉熵

4. LR與SVM區別

LR是參數模型，SVM是非參數模型。
從目標函數來看，區別在於邏輯迴歸採用的是logistical loss，SVM採用的是hinge loss.這兩個損失函數的目的都是增加對分類影響較大的數據點的權重，減少與分類關係較小的數據點的權重。
SVM的處理方法是隻考慮support vectors，也就是和分類最相關的少數點，去學習分類器。而邏輯迴歸通過非線性映射，大大減小了離分類平面較遠的點的權重，相對提升了與分類最相關的數據點的權重。
邏輯迴歸相對來說模型更簡單，好理解，特別是大規模線性分類時比較方便。而SVM的理解和優化相對來說複雜一些，SVM轉化爲對偶問題後,分類只需要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優勢很明顯,能夠大大簡化模型和計算。
logic 能做的 svm能做，但可能在準確率上有問題，svm能做的logic有的做不了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習面試點雜記

文章目錄

熵

參數模型與非參數模型

SVM

1. 原始問題

2. 拉格朗日函數

3. 對偶問題

4. 轉化爲對偶問題的好處

5. 合頁損失函數

6. 多分類SVM

7. 高斯核函數

LR

1. 二項邏輯迴歸

2. 多項邏輯迴歸(K項)

3. 損失函數

4. LR與SVM區別

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

自動迭代方案——行爲序列異常檢測項目A

非科班小碩的算法秋招記錄

面經雜記

機器學習面試點雜記

模型評估項目

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結