欠擬合和過擬合 Underfitting and Overfitting
似然方程 Likelihood Function
定義似然方程,表示在已知輸入的情況下,輸出爲y的概率
爲使結果準確,我們希望在輸入x的情況下預測出y的概率最大。
定義對數似然函數log likelihood function l(θ),即對L(θ)取對數
注意到化簡後第一項在概率分佈確定的情況下爲一常數,因此追求對數似然函數的最大值即追求等式第二項的最小值,這與之前的損失方程是一致的。
以上可以理解爲損失函數的概率解釋。
局部加權線性迴歸 Locally Weighted Linear Regression
這一算法考慮的思路如下,輸入一個未知的x(測試集),與x距離更近的訓練集輸入對其的參考價值越大,特殊情況,若測試輸入與訓練集中一個輸入相同,即其距離爲0,則測試的輸出應該就是訓練的輸出(因爲是兩個完全一樣的輸入)。
簡而言之,即考慮了函數整體較爲平滑,以局部的擬合代替對整體的擬合。這一算法的具體做法如下
1. Fit θ to minimize Sum(i = 1 to m)[w(i)*[y(i)-h(x;θ)]^2]
2. Output θ^T*X
這一算法輸出的就是對測試集的預測,那麼問題在於,如何設置權重。
權重的設置應滿足兩點距離越近,則權值越大,越遠則越小,更好的情況是,當兩者完全重合時(即一樣時),令權值爲1,當兩者差異很大時(距離爲無窮大),令權值爲0,可令權值方程如下
w(i) = exp(-((x(i)-x))^2/(2*τ^2))
τ控制了權重下降的速度,稱爲帶寬Bandwidth
非參數算法Non-parametric Algorithm
局部加權線性迴歸算法是一種非參數算法,這種算法的參數隨訓練集的個數m變化。
邏輯方程 Logistic Regression
之前我們討論的是y取離散值時的情況,我們可以將之稱爲預測問題,也可以稱爲迴歸問題(或者其他什麼問題,只要其結果取值爲連續值就好)。對於結果爲離散值的情況,最簡單的即爲{0,1},我們將其成爲分類問題(Classification Problem),也就是說我們將結果分爲幾個類,然後將測試集的數據分別歸類到不同的類中。在這種情況下,之前討論的連續函數將不再適合這一問題,我們希望得到在類別分界點突變的函數,一個典型的函數便是邏輯函數。
分類問題的參數函數的表達式如下
其中的函數g爲,即傳說中的邏輯函數 Logistic Function,也稱爲Sigmoid Function
邏輯函數的圖像如下
g()函數有一些特殊的特性,比如其導數可以用下面這一方法求出
在二分類問題中,我們可以假設h(x;θ)用來表示在參數θ的條件下,y爲1的概率,因此可定義兩個情況發生的概率
考慮到y的值的影響,可將這兩個方程聯合起來,爲
此時可定義似然函數L(θ)
並求出對數似然函數
爲了得到θ的更新策略,仿照之前線性迴歸的方法,我們對對數似然函數求導
因此θ的更新策略爲θj = θj + α*(y(i)-h(x(i);θ))*x(i)j