PRML 閱讀筆記(二)

1.3 Model Selection

      在我們的多項式曲線問題中,多項式的最高次數控制了模型的參數個數,而加入了正則化項之後,,lambda控制了模型的有效參數個數。而我們有時候不僅會考慮單個模型的複雜度,也會綜合考量多個模型。在實際應用中,如果數據充足,一種方法是我們把數據分爲訓練集和驗證集,有時模型可能需要迭代很多次,而爲防止模型對驗證集的過擬合,我們還要分出一部分做測試集,來進行最終的模型評估。

        然而在大多實踐中,樣本並不充足。我們或許想把所有數據都用來訓練,本來數據就不多,還要拿一部分單獨做驗證,就顯得很奢侈了。一種解決此問題的方法叫做交叉驗證。我們把所有樣本隨機分爲s份(最簡單的方法是每份大小均等),然後每次用s-1份做訓練,1份做驗證,重複s次。當樣本特別少的時候,令S=N(樣本點的個數)。

        交叉驗證的一個缺點是計算量比較大,尤其當S比較大時。另外,如果模型有多個參數,那我們訓練的次數可能是指數級的(假設有m個參數,每個參數有k個取值,那我們訓練調參的次數會是k的m次方級)。

         那有沒有一種方法可以讓我們省去驗證的步驟,可以使模型只依賴於訓練集而不作驗證,且還能避免過擬合。有一個哲學原理叫作“奧卡姆剃刀原理”,其內容大致可歸納爲“如無必要,勿增實體”。放在我們這裏,即能夠在一定程度上擬合樣本數據且參數個數最少的模型是最好的。書上介紹了一種叫作AIC的方法,即最大化如下函數:

         

          第一項是我們的似然函數,書中作者在對似然函數加了一個best-fit的形容詞,M是我們模型參數的個數。如何能"best-fit“,我想這裏大概只是題了一些概念,書中三四章會具體涉及這部分內容。


1.4 The Curse of Dimensionality


        我們之前的多項式曲線模型中,我們只有一個輸入變量x,即特徵是一維的。而實際應用中,多維特徵是非常常見的。作者先是舉了一個例子,抽象成了一個分類模型,想通過劃分方格來解決問題,可是當特徵的維度提高以後,我們劃分的方格數會指數上漲。

          回到多項式曲線模型,現在我們假設有D個輸入變量(輸入是D維的),對於次數爲3的多項式來說,我們有如下函數:

      

        

         此時參數的個數是O(D的三次方)。當多項式次數爲M時,我們的參數個數爲O(D的M次方)。現在,我們已經把維度從指數的位置放到了冪的位置。但仍然不夠。

         接下來作者舉了兩個例子,先說了球體體積在維度越高的時候,體積就越會集中在球體的表面,這個似乎我們很難形象的想像,只能通過公式去理解。後來又說了極座標下高斯分佈的例子。

         最後,作者總結,特徵維度較高是我們在實際應用中經常遇到的問題。而有兩個性質會降低高維問題對我們的困擾:

         

         第一個原因,在真實數據中,特徵的有效維度是比較低的(即特徵也許雖多,但真正有用的並不多),並且目標變量的變化範圍也不大(這一節邏輯我理的不是很清楚,那兩個高維例子,球體和高斯分佈的,是不是就是想說明這個)。第二就在於真實數據往往至少在局部會有一些圓滑性,所以大多時候輸入變量小的改變也不會引起目標變量大的變化,所以在預測新變量的時候,我們可以用到局部插值法之類的技術(local interplation-like techniques具體是什麼?是插入一些點使曲線更圓滑麼?這一部分也不怎麼明白,這和高維災難有什麼關係,希望大大們能幫忙解釋一下,謝謝)。

          最後作者舉了一個例子,也沒看懂。。。。

   

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章