機器學習入門的基礎知識，包括常見名詞的解釋（線性迴歸、容量、過擬合欠擬合、正則化、超參數和驗證集、估計、偏差和方差、最大似然估計、KL散度、隨機梯度下降）

歡迎關注我的微信公衆號“人小路遠”哦，在這裏我將會記錄自己日常學習的點滴收穫與大家分享，以後也可能會定期記錄一下自己在外讀博的所見所聞，希望大家喜歡，感謝支持！

1、數值計算基礎

計算機求解問題的步驟：

1、根據實際問題建立數學模型；（應用數學）

2、由數學模型給出數值計算方法；（計算數學）

3、根據計算方法編制算法程序在計算機上算出結果。

數值問題：是輸入和輸出數據之間的函數關係的一個確定而無歧義的描述。可以理解爲：輸入和輸出均爲數據的數學問題。

上溢：當大量級的數被近似爲無窮大時發生上溢。

下溢：當接近零的數被四捨五入爲零時發生下溢。

優化：改變x以最小化或最大化某個函數f(x)的任務。

目標函數：需要最小化或最大化的函數。可描述爲：
$\frac{1}{N}\cdot\sum^N_{i=1}|y_i-f(x_i)|+正則化項$
成本（cost）或損失（loss）：爲了訓練模型，我們需要定義一個指標來評估這個模型。但通常定義指標來表示一個模型是壞的，這個指標稱爲成本（cost）或損失（loss），然後儘量最小化這個指標。

損失函數：一般針對單個樣本，可描述爲：
$|y_i-f(x_i)|$
代價函數，一般針對總體，可描述爲：
$\frac{1}{N}\cdot\sum^N_{i=1}|y_i-f(x_i)|$

基於梯度的優化方法：延方向導數的方向是上升/下降最快的方向。

駐點：局部最大/最小值點

最值點：全局最大/最小值點

2、機器學習基礎

概念：

致力於研究如何通過計算的手段，利用經驗來改善系統自身性能的學科和方法。
對於某類任務T和性能度量P，一個計算機程序被認爲可以從經驗E中學習是指，通過經驗E改進後，它在任務T上由性能度量P衡量的性能有所提升。

任務T：計算機要解決的問題。

學習：獲得完成任務能力的過程。

樣本：量化特徵的數據集合。

分類：預測已知輸入的類別。預測爲離散值時，此類學習任務成爲分類。

迴歸：預測的爲連續值時，此類學習任務稱爲迴歸。

聚類：按照潛在標準劃分爲不同類型組，稱爲聚類學習。

訓練集：訓練數據模型的數據集。

測試集：評估模型性能P的數據集。

無監督學習：訓練含有很多特徵的數據集，然後學習出這個數據集上有用的結構性質。

監督學習：訓練含有很多特徵的數據集，數據集中的樣本都有一個標籤。

數據集的表示：通過設計矩陣，行向量表示一個樣本，每行中的每列元素表徵該樣本某個特徵數字化的結果。

3、線性迴歸

定義：利用數理統計中迴歸分析，來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。描述爲：
$\hat y = w^Tx+b$
其中， $\hat y$ 爲預測y的取值。

機器學習任務：通過樣本訓練，確定參數 $w^T$ 和b

均方誤差(mean-square error, MSE)：度量模型性能的常用方法，反映估計量與被估計量之間差異程度的一種度量。記爲：
$MSE（test）=\frac{1}{n}\sum_{i=1}^n(\hat y(test)-y(test))^2$

$MSE = E[(\hat\theta_m-\theta)^2 ]$

正規方程：通過解梯度爲0時的向量方程，直接求得駐點位置。
$\nabla_wMSE_{train}=0$
解得：
$w=(X^{(train)T}X^{(train)})^{-1}X^{(train)T}y^{(train)}$

4、容量、過擬合和欠擬合

泛化：訓練模型在未觀測到的輸入上表現良好的能力。

訓練誤差：模型在訓練集上表現出的誤差。

泛化誤差：新輸入數據的誤差期望。通常通過在測試集上的性能來評估泛化誤差。

決定機器學習算法好壞的兩個因素：

降低訓練誤差；
縮小訓練誤差和測試誤差的差距。

欠擬合（underfitting）：模型不能再訓練集上獲得足夠低的誤差；

過擬合（overfitting）：訓練誤差和測試誤差的差距太大。

容量（capacity）：指模型擬合各種函數的能力。

容量不足的模型不能解決複雜問題；容量高的模型能夠解決複雜任務，但當其容量高於任務所需時，有可能會過擬合。

5、正則化

沒有免費午餐定理：在所有可能的數據生成分佈上平均之後，每一個分類算法在未事先觀測的點上都有相同的錯誤率。

正則化（λ）：通過引入權重衰減，來修改訓練標準，突出學習算法的偏好。目的是爲了降低模型的泛化誤差。
$J(W) = MSE_{train}+λw^Tw$

6、超參數和驗證集

超參數：指不通過學習學得，而直接設定或指定的參數。適用於控制模型容量的所有參數。這些參數總是趨向於最大可能的模型容量，導致過擬合。

驗證集：從訓練集中分出，用於調整超參數的數據集。

7、估計、偏差和方差

點估計：輸入數據樣本的函數，估計出的模型中的參數值。記爲：
$\hat\theta_m = g(x^{(1)},…,x^{(m)})$

偏差：參數的點估計的數學期望與參數真實值之間的差。記爲：
$bias(\hat\theta_m) = E(\theta_m) - \theta$
偏差度量偏離真實函數或參數的誤差期望；方差度量數據上任意特定採樣可能導致的估計期望的偏差。

方差（Variance）

均方誤差：權衡偏差和方差的方式實現誤差估計。記爲：
$MSE = E[(\hat\theta_m-\theta)^2 ]=Bias(\hat\theta_m )^2+Var(\hat\theta_m )$

8、最大似然估計

似然函數：給出輸出x時，關於θ的似然函數L(x,θ)等於給定參數θ後變量X的概率，即：
$L(x,\theta)=P(X=x|\theta)$
最大似然估計：在θ的所有可能取值中，找到一個能使數據出現的“可能性”最大的值。記爲：

9、KL散度

KL散度：訓練集上的經驗分佈$ \hat p_{data} $和模型分佈之間的差異的度量方式。記爲：
$D_{KL}(\hat p_{data}||p_{model})=E_{x\sim\hat pdata}[log\hat p_{data}(x)-logp_{model}(x)]$
最小化散度：最小化分佈間的交叉熵。即只用最小化部分：
$-E_{x\sim\hat pdata}[logp_{model}(x)]$

10、隨機梯度下降

問題：梯度下降當樣本空間很大時，訓練過程消耗過大。

思路：每次訓練不必採用全部樣本數據，而是均勻抽取一部分樣本訓練，通過大量的訓練步驟，使小批量數據訓練的模型擬合全部樣本。

解決方法：

隨機梯度下降（一次選一個樣本）
批梯度下降（一次選小批量樣本）
……

湖大李桂桂

發佈了34 篇原創文章 · 獲贊 11 · 訪問量 1萬+

私信關注

機器學習基礎知識和常用名詞解釋