【三】欠擬合與過擬合

欠擬合和過擬合 Underfitting and Overfitting

在上一講介紹的迴歸問題中,一個重要的問題是迴歸函數的選擇,既可以用線性函數進行迴歸,也可以使用二次函數甚至更高次的函數,函數的次數就可以理解爲參數的個數,也稱爲特徵集的個數(因爲係數越多表明考慮的“因素”越多,即特徵集越大)。如下列三種對數據集擬合的方法:

這一圖片是對同一數據集的擬合,很明顯,中間的函數大致反映了數據集的變化趨勢,但也存在一些誤差,尚在我們可接受的範圍之內。左側的圖片使用線性函數進行擬合,相比之下並沒有中圖所呈現的效果好,其誤差很大很明顯,且沒有體現出數據的變化趨勢,稱爲欠擬合;右圖使用了很高次的迴歸方程,對每一個點的迴歸都很準確,但這與真實的情況相差很遠,因爲真實的情況不會出現頻繁的波動,使用高次的函數進行迴歸,使用訓練集的結果會得到很高的準確率,但泛化能力較差,對訓練集之外的數據波動很大,稱爲過擬合

似然方程 Likelihood Function

定義似然方程,表示在已知輸入的情況下,輸出爲y的概率



爲使結果準確,我們希望在輸入x的情況下預測出y的概率最大。

定義對數似然函數log  likelihood function l(θ),即對L(θ)取對數

注意到化簡後第一項在概率分佈確定的情況下爲一常數,因此追求對數似然函數的最大值即追求等式第二項的最小值,這與之前的損失方程是一致的。

以上可以理解爲損失函數的概率解釋


局部加權線性迴歸 Locally Weighted Linear Regression

這一算法考慮的思路如下,輸入一個未知的x(測試集),與x距離更近的訓練集輸入對其的參考價值越大,特殊情況,若測試輸入與訓練集中一個輸入相同,即其距離爲0,則測試的輸出應該就是訓練的輸出(因爲是兩個完全一樣的輸入)。

簡而言之,即考慮了函數整體較爲平滑,以局部的擬合代替對整體的擬合。這一算法的具體做法如下

1. Fit  θ to minimize Sum(i = 1 to m)[w(i)*[y(i)-h(x;θ)]^2]

2. Output θ^T*X

這一算法輸出的就是對測試集的預測,那麼問題在於,如何設置權重。

權重的設置應滿足兩點距離越近,則權值越大,越遠則越小,更好的情況是,當兩者完全重合時(即一樣時),令權值爲1,當兩者差異很大時(距離爲無窮大),令權值爲0,可令權值方程如下

w(i) = exp(-((x(i)-x))^2/(2*τ^2))

τ控制了權重下降的速度,稱爲帶寬Bandwidth


非參數算法Non-parametric Algorithm

局部加權線性迴歸算法是一種非參數算法,這種算法的參數隨訓練集的個數m變化。


邏輯方程 Logistic Regression

之前我們討論的是y取離散值時的情況,我們可以將之稱爲預測問題,也可以稱爲迴歸問題(或者其他什麼問題,只要其結果取值爲連續值就好)。對於結果爲離散值的情況,最簡單的即爲{0,1},我們將其成爲分類問題(Classification Problem),也就是說我們將結果分爲幾個類,然後將測試集的數據分別歸類到不同的類中。在這種情況下,之前討論的連續函數將不再適合這一問題,我們希望得到在類別分界點突變的函數,一個典型的函數便是邏輯函數。

分類問題的參數函數的表達式如下


其中的函數g爲,即傳說中的邏輯函數 Logistic Function,也稱爲Sigmoid Function

邏輯函數的圖像如下


g()函數有一些特殊的特性,比如其導數可以用下面這一方法求出


在二分類問題中,我們可以假設h(x;θ)用來表示在參數θ的條件下,y爲1的概率,因此可定義兩個情況發生的概率


考慮到y的值的影響,可將這兩個方程聯合起來,爲

此時可定義似然函數L(θ)


並求出對數似然函數


爲了得到θ的更新策略,仿照之前線性迴歸的方法,我們對對數似然函數求導


因此θ的更新策略爲θj = θj + α*(y(i)-h(x(i);θ))*x(i)j


感知學習算法 Perceptron Learning Algorithm

感知學習算法是另一種實現分類算法的方式,不同於邏輯迴歸算法,其定義閾值函數爲

這一函數在分界點變化更陡峭,可認爲信號處理中的階梯函數,但顯然其不像邏輯函數一樣有函數表達式。
感知學習算法的更新方程與邏輯迴歸的相同,爲θj = θj + α*(y(i)-h(x(i);θ))*x(i)j

//這裏是分割線~
//順便給自己的公衆號打個廣告,希望大家多多關注~
//關注我的公衆號可以看到更多有意思的東西哦~

發佈了32 篇原創文章 · 獲贊 11 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章