PRML 閱讀筆記(九)

3.Linear Models for Regression


    這章一開始作者就說明,"線性"迴歸指的是模型或預測函數是參數的線性函數,而不一定是輸入變量的線性函數。對於模型中輸入變量的的函數,可以是非線性函數,稱之爲basis function。


3.1 Linear Basis Function Models

      線性迴歸模型可以表示如下:

      

      其中w0的basis function被假設爲常數1.

      在第一章的多項式曲線擬合中,只有一個輸入變量x,並且模型中的basis function是,其實basis function的選擇是很廣泛的,書中介紹了Gaussian baisis function,logistic sigmoidal function等三種basis function。作者下面一段關於傅立葉級數和frequency,spatial的一段話我沒理解,希望大牛給我一點提示。

      



3.1.1 Maximum likelihood and least square

       這一小節,作者主要還是對似然函數的前前後後做了一系列描述與講解。

       首先,假設目標變量和預測函數與誤差的關係如下:

       

        緊接着,像第一章提到那樣,根據中心極限定理等,假設誤差服從均值爲0,precision爲β的高斯分佈,進而可以推導出目標變量服從的高斯分佈:

        

         對上式取對數形式後,最後一項便是之前提到過的“最小均方”,關於最小均方作者題到了梯度下降。對於“最小均方”中的w求偏導並假設求偏導之後的式子爲0,便可以得到所謂的normal equation。書中有normal equation的具體形式,就不過多贅述了。爲什麼有了normal equation,還要用梯度下降法求參數的解呢?首先遇到不可逆的矩陣,就無法用normal equation求出參數的解,其次當特徵維度非常高的時候計算逆矩陣的成本太高。

         接下來作者論述了參數w0的含義和precision β的求解。關於w0,作者寫到w0是補償了目標變量均值和weighted sum of the averages of the basis function values之間的差值:

         

          雖然式子是清楚了,但是還是不明白這樣的補償有什麼意義?

          

3.1.2 Geometry of least squares

           這一小節,作者對"最小均方"的幾何含義做了相應解釋。在N維空間中,t(即目標標量的向量組)是N維空間中的一個N維向量,假設模型複雜度M小於樣本的總個數N,對於N維向量y,也是一個N維向量,但因爲其是M個向量的線性組合,所以被侷限在了一個M維的子空間中。"最小均方"的意義就是選取適當的w,使得出的yt的歐式距離最小,而真正的使"最小均方"爲0的y即是t在M維子空間上的投影。

           

3.1.3 sequential learning

           即應用隨機梯度下降,使用一個樣本點更新所有參數值,適合於實時應用中(詳見andrew ng斯坦福公開課)。


3.1.4 Regularized least squares

            這一節的大多數內容也在之前遇到過了,即加入了正則項的“最小均方”的相關知識。加入了正則化項以後,除非有數據的支持,否則會使參數取值趨近於0來簡化模型,避免過擬合。相對與之前,對於正則化項進行一點小小擴展,有:

            

            當q=2時,即我們之前題到的正則化項。這樣就把防止過擬合的任務從basis function的個數選擇上轉移到了正則化參數λ的選擇上了。


3.1.5 Multiple outputs

            這一小節主要是講輸出變量t是多維的情況,不做介紹了,只是擴展了一下維度。




3.2 The Bias-Variance Decomposition

           在1.5.5節中,通過指定loss 函數L是“最小平方”,再對L的期望進行一點簡單的推導,得出了最優y(x),即使得E[L]最小的y(x),記爲h(x),如下:

           

            在1.5.5中,將h(x)代入“最小平方”L中,可以推導出如下E[L]:

            

             其中第二項來源於數據中的噪聲,在樣本數據確定以後是不可消減的,也就是E[L]理論上所能取到的最小值了。而第一項,明顯是因爲我們選擇的y(x)和最優y(x)之間的誤差引起的,所以接下來的努力方向就是使第一項儘量小。

              假設此時我們有多個樣本集,大小都爲N,且是從分佈p(t,x)中獨立產生的。在每個數據集上使用最小二乘對參數進行擬合,最後取各個數據集上擬合的結果進行合成。E(y(x;D))是y(x;D)的均值,將其插入“最小平方”中得到:

             

              然後再經過一步不知怎麼就消去了交叉項的推導,得到了:

                       

                這樣,之前的E[L]就變成了如下形式:

                

                我們的目標是最小化expected loss,其中noise是常數,而對於前兩項的選取,稱爲bias and variance trade-off。對於flexible models,因爲面對不同D時,y(x;D)的變化會比較大,所以variance比較高,而因爲其對於樣本的擬合比較好,所以平均後的效果更接近最優y(x),這時的模型存在過擬合風險。相反,對與比較rigid的模型,其面對不同D的時候y(x;D)的變化不大,所以variance就會比較小,而因爲對數據的擬合度差一點,bias就會高一點,此時存在欠擬合的風險。所以,最好的y(x)是在bias和variance中找到一個平衡。這是我對這部分內容的一點理解,不對的請大家指出來。

                 後來作者又畫圖舉了bias和variance平衡關係的例子,以及如何量化的計算bias和variance。

                 關於這一節,作者在講bias和variance的時候要談到多個數據集,而最後又說將數據集合並後進行建模可以有效避免過擬合。爲什麼講內容的時候要分開,是因爲講的方便?不分開就不存在E(y(x;D))?還是因爲什麼原因?希望有大牛能指點一下,感激不盡。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章