PRML讀書會第三章 Linear Models for Regression

大家好,我負責給大家講講 PRML的第3講 linear regression的內容,請大家多多指教,羣主讓我們每個主講人介紹下自己,赫赫,我也說兩句,我是 applied mathematics + computer science的,有問題大家可以直接指出,互相學習。大家有興趣的話可以看看我的博客: http://t.qq.com/keepuphero/mine,當然我給大家推薦一個好朋友的,他對計算機發展還是很有心得的,他的網頁http://www.zhizhihu.com/ 對machine learning的東西有深刻的瞭解。

好,下面言歸正傳,開講第3章,第3章的名字是 linear regression,首先需要考慮的是: 爲什麼在講完 introduction、probability distributions 之後就直講 linear regression? machine learning的essence是什麼?

機器學習的本質問題: 我個人理解,就是通過數據集學習未知的最佳逼近函數,學習的 收斂性\界 等等都是描述這個學習到的function到底它的性能如何。但是,從數學角度出發,函數是多樣的,線性\非線性\跳躍\連續\非光滑,你可以組合出無數的函數,那麼這些函數就組成了函數空間,在這些函數中尋找到一個滿足你要求的最佳逼近函數,無疑大海撈針。我們再來回顧下第一章的 曲線擬和問題:

prml3-1

需要逼近的函數是: prml3-2,M階的曲線函數可以逼近麼?這是我們值得思考的問題。

prml3-3prml3-4prml3-5prml3-6prml3-7prml3-9

要曲線擬和, 那麼擬和的標準是什麼?這裏用了2範數定義,也就是誤差的歐式距離,當然,你可以用 L1,L無窮,等等了 ,只是objective不同罷了。現在的疑問是: 爲什麼要用Polynomial Fitting?有數學依據麼,這裏牽扯到 範函的問題,就是函數所張成的空間,舉一個簡單的例子,大家還都記得 talyor展式吧:

prml3-10

這表明 任意一個函數可以表示成 x的次方之和,也就是 任意一個函數 可以放到  prml3-11所張成的函數空間,如果是有限個基的話就稱爲歐式空間,無窮的話 就是 Hilbert空間,其實 傅里葉變換 也是這樣的一個例子,既然已經明白了 任意函數可以用Polynomial Fitting,那麼下面就是什麼樣的 Polynomial是最好的。
Wilbur_中博(1954123) 19:28:26
泰勒展開是局部的、x0周圍的,而函數擬合是全局的,似乎不太一樣吧?
planktonli(1027753147) 19:29:21
恩,泰勒展開是局部的,他是在 x0 點周圍的一個 表達,函數擬合是全局的,我這裏只是用一個簡單的例子說明 函數表達的問題。
Wilbur_中博(1954123) 19:30:41

prml3-12

planktonli(1027753147) 19:31:03
其實,要真正解釋這個問題是需要範函的東西的。
Wilbur_中博(1954123) 19:31:45
抱歉,打斷了一下,因爲我覺得這個問題留到討論就不太好了,呵呵。瞭解了,請繼續吧。
planktonli(1027753147) 19:31:51
由於大多數羣友未學過這個課程,我只是想說下這個思想,呵呵,沒事,討論才能深刻理解問題,其實,wavelet這些,包括 kernel construcion這些東西都牽扯到 範函。
Bishop用上面這個例子說明 :
1) 可以用 Polynomial Fitting 擬和 sin類的函數 2) 存在過擬和問題
而且這裏的 Polynomial Fitting 是一個線性model, 這裏Model是w的函數,w是線性的:

prml3-15

prml3-16是線性的麼,肯定不是,那麼 讓我們再來分析下 研究的問題
prml3-16中的 x 是1維的

prml3-15

上面的X 變成了prml3-18
prml3-19,非常有意思的是: 維數升高了,同時這個model具有了表達非線性東西的

能力。這裏的思想,可以說貫穿在 NN,SVM這些東西里,也就是說,線性的model如果應用得當的話,可以表達非線性的東西。與其在所有函數空間盲目的尋找,還不如從一個可行的簡單model開始,這就是爲什麼Bishop在講完基礎後直接切入 Linear regression的原因,當然這個線性model怎麼構造,是單層的 linear model,還是多層的 linear model 一直爭論不休,BP否定了 perceptron 的model,SVM 否定了 BP model
現在deep learning 又質疑 SVM 的shallow model,或許這就是machine learning還能前進的動力。
讓咱們再回來看看linear regression 的模型,這裏從標準形式到擴展形式,也就是引入基函數後,Linear regression的模型可以表達非線性的東西了,因爲基函數可能是非線性的:

prml3-20

基函數的形式,這些基函數都是非線性的:

prml3-21prml3-22prml3-23

在Gaussian 零均值情況下,Linear model從頻率主義出發的MLE就是 Least square:

prml3-25

最小2乘的解就是廣義逆矩陣乘輸出值:

prml3-26

Gaussian的precision也可以計算出來:

prml3-27

最小2乘的解可以看成到基張成空間的投影:

prml3-28

頻率主義會導致 過擬和,加入正則,得到的最小2乘解:

prml3-29

正則參數對model結果的影響:

prml3-30

消除過擬和,正則的幾何解釋:

prml3-31

正則方法不同,就會出現很多model,例如 lasso, ridge regression。LASSO的解是稀疏的,例如:sparse coding,Compressed sensing 是從 L0–> L1sparse的問題,現在也很熱的。

prml3-33prml3-34prml3-35

下面看 Bias-Variance Decoposition,正則就是在 訓練數據的模型上加一個懲罰項,shrink 模型的參數,讓它不要學習的太過,這裏  prml3-36是對訓練數據學習到的模型,prml3-37是學習到的參數的懲罰模型

prml3-39prml3-40prml3-41prml3-42

上面這麼多PPT無非就是說,學習到的模型和真實的模型的期望由2部分組成:

1–> Bias 2–> Variance。Bias表示的是學習到的模型和真實模型的偏離程度,Variance表示的是學習到的模型和它自己的期望的偏離程度。從這裏可以看到正則項在控制 Bias 和 Variance:

prml3-45

Wilbur_中博(1954123) 20:33:07
這個是關鍵,呵呵
planktonli(1027753147) 20:33:25
Variance小的情況下,Bias就大,Variance大的情況下,Bias就小,我們就要tradeoff它們。

從這張圖可以看到 Bias和 Variance的關係:

prml3-46

這個Bias-Variance Decoposition 其實沒有太大的實用價值,它只能起一個指導作用。
下面看看  Bayesian Linear Regression:

prml3-50prml3-51prml3-52prml3-54

從Bayesian出發,關注的不是參數的獲取,而更多的是 新預測的值,通過後驗均值可以得到  linear model和核函數的聯繫,當然也可以建立 gaussian process這些東西。
Wilbur_中博(1954123) 20:51:25
這裏可以講細一點麼,如何建立聯繫?
planktonli(1027753147) 20:54:44

prml3-55prml3-56

這裏就可以看到了啊,看到了麼,Wilbur?
Wilbur_中博(1954123) 20:57:24
在看
planktonli(1027753147) 20:58:08
如果共扼先驗是 0均值情況下,linear model就可以變成 kernel了:

prml3-58prml3-59

最後講了bayesain model比較:

prml3-60prml3-61prml3-62

選擇最大信任的model來作爲模型選擇,而非用交叉驗證,信任近似:

prml3-64prml3-65prml3-66

固定基存在缺陷爲 NN,SVM做鋪墊,NN,SVM都是變化基,BP是梯度下降error,固定基,RBF是聚類尋找基,SVM是2次凸優化尋找基。好了,就講到這裏吧,肯定還有講的不對,或者不足的地方,請大家一起討論和補充,謝謝。

 

============================討論===============================

Wilbur_中博(1954123) 21:08:29
RBF不是固定徑向基找係數的麼,SVM也是固定基的吧,這裏尋找基是什麼意思?
planktonli(1027753147) 21:09:01
SVM是尋找那些 係數不爲0的作爲基,RBF,我說的是RBF神經網絡,不是RBF基函數,呵呵
Wilbur_中博(1954123) 21:11:07
嗯,但咱們現在這一章,比如多項式基,也可以說是尋找係數不爲0的x^k吧,SVM也仍然是固定了某一種核,比如多項式核或者高斯核。嗯,我知道是說RBF網絡。
planktonli(1027753147) 21:11:40
恩,可以這麼說

Wilbur_中博(1954123) 21:12:35
還有就是,固定一組基的話,也有很多選擇,有多項式、也有高斯、logisitic等等,那我們應該怎麼選擇用什麼基去做迴歸呢?這一章講得大多都是有了基以後怎麼選擇w,但怎麼選擇基這一點有沒有什麼說法。
planktonli(1027753147) 21:13:37
我說的固定指的是,SVM不知道基是誰,而是通過優化獲取的。
Wilbur_中博(1954123) 21:13:41
或者小波傅里葉什麼的。。好多基
planktonli(1027753147) 21:14:03
prml3-68這裏提出了固定基的問題,基的選擇要看樣本的幾何形狀,一般都是 選擇 gaussian,當然也可以一個個測試着弄。
Wilbur_中博(1954123) 21:15:55
SVM裏有個叫multiple kernel learning的,感覺像是更廣泛的變化基的解決方案。嗯,就是說大多是經驗性的是吧,選基這個還是蠻有趣的,我覺得。
planktonli(1027753147) 21:16:45
恩,MK是多個kernel的組合,嘗試用多個幾何形狀的kernl去尋找一個更power的。
Wilbur_中博(1954123) 21:17:05
嗯,呵呵
planktonli(1027753147) 21:17:16
恩,kernel construction是ML的主要研究內容之一
Wilbur_中博(1954123) 21:18:14
好的,我沒什麼問題了,謝謝,以後多交流。看其他朋友還有什麼問題。
planktonli(1027753147) 21:50:29
本次的講義有些內容是羣共享裏的 Linear1.pdf
下次的linear classification主要講的內容在羣共享中爲Linear2.pdf

注:PRML讀書會系列文章由 @Nietzsche_複雜網絡機器學習 同學授權發佈,轉載請註明原作者和相關的主講人,謝謝。

PRML讀書會講稿PDF版本以及更多資源下載地址:http://vdisk.weibo.com/u/1841149974

本文鏈接地址:http://www.52nlp.cn/prml讀書會第三章-linear-models-for-regression

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章