欠擬合和過擬合 Underfitting and Overfitting

在上一講介紹的迴歸問題中，一個重要的問題是迴歸函數的選擇，既可以用線性函數進行迴歸，也可以使用二次函數甚至更高次的函數，函數的次數就可以理解爲參數的個數，也稱爲特徵集的個數（因爲係數越多表明考慮的“因素”越多，即特徵集越大）。如下列三種對數據集擬合的方法：

這一圖片是對同一數據集的擬合，很明顯，中間的函數大致反映了數據集的變化趨勢，但也存在一些誤差，尚在我們可接受的範圍之內。左側的圖片使用線性函數進行擬合，相比之下並沒有中圖所呈現的效果好，其誤差很大很明顯，且沒有體現出數據的變化趨勢，稱爲欠擬合；右圖使用了很高次的迴歸方程，對每一個點的迴歸都很準確，但這與真實的情況相差很遠，因爲真實的情況不會出現頻繁的波動，使用高次的函數進行迴歸，使用訓練集的結果會得到很高的準確率，但泛化能力較差，對訓練集之外的數據波動很大，稱爲過擬合。

似然方程 Likelihood Function

定義似然方程，表示在已知輸入的情況下，輸出爲y的概率

爲使結果準確，我們希望在輸入x的情況下預測出y的概率最大。

定義對數似然函數log likelihood function l(θ)，即對L(θ)取對數

注意到化簡後第一項在概率分佈確定的情況下爲一常數，因此追求對數似然函數的最大值即追求等式第二項的最小值，這與之前的損失方程是一致的。

以上可以理解爲損失函數的概率解釋。

局部加權線性迴歸 Locally Weighted Linear Regression

這一算法考慮的思路如下，輸入一個未知的x（測試集），與x距離更近的訓練集輸入對其的參考價值越大，特殊情況，若測試輸入與訓練集中一個輸入相同，即其距離爲0，則測試的輸出應該就是訓練的輸出（因爲是兩個完全一樣的輸入）。

簡而言之，即考慮了函數整體較爲平滑，以局部的擬合代替對整體的擬合。這一算法的具體做法如下

1. Fit θ to minimize Sum(i = 1 to m)[w(i)*[y(i)-h(x;θ)]^2]

2. Output θ^T*X

這一算法輸出的就是對測試集的預測，那麼問題在於，如何設置權重。

權重的設置應滿足兩點距離越近，則權值越大，越遠則越小，更好的情況是，當兩者完全重合時（即一樣時），令權值爲1，當兩者差異很大時（距離爲無窮大），令權值爲0，可令權值方程如下

w(i) = exp(-((x(i)-x))^2/(2*τ^2))

τ控制了權重下降的速度，稱爲帶寬Bandwidth

非參數算法Non-parametric Algorithm

局部加權線性迴歸算法是一種非參數算法，這種算法的參數隨訓練集的個數m變化。

邏輯方程 Logistic Regression

之前我們討論的是y取離散值時的情況，我們可以將之稱爲預測問題，也可以稱爲迴歸問題（或者其他什麼問題，只要其結果取值爲連續值就好）。對於結果爲離散值的情況，最簡單的即爲{0，1}，我們將其成爲分類問題（Classification Problem），也就是說我們將結果分爲幾個類，然後將測試集的數據分別歸類到不同的類中。在這種情況下，之前討論的連續函數將不再適合這一問題，我們希望得到在類別分界點突變的函數，一個典型的函數便是邏輯函數。

分類問題的參數函數的表達式如下