PRML讀書會第三章 Linear Models for Regression

大家好，我負責給大家講講 PRML的第3講 linear regression的內容，請大家多多指教，羣主讓我們每個主講人介紹下自己，赫赫,我也說兩句，我是 applied mathematics + computer science的，有問題大家可以直接指出，互相學習。大家有興趣的話可以看看我的博客: http://t.qq.com/keepuphero/mine，當然我給大家推薦一個好朋友的，他對計算機發展還是很有心得的,他的網頁http://www.zhizhihu.com/ 對machine learning的東西有深刻的瞭解。

好,下面言歸正傳，開講第3章，第3章的名字是 linear regression，首先需要考慮的是: 爲什麼在講完 introduction、probability distributions 之後就直講 linear regression? machine learning的essence是什麼?

機器學習的本質問題: 我個人理解,就是通過數據集學習未知的最佳逼近函數，學習的收斂性\界等等都是描述這個學習到的function到底它的性能如何。但是,從數學角度出發,函數是多樣的，線性\非線性\跳躍\連續\非光滑，你可以組合出無數的函數,那麼這些函數就組成了函數空間，在這些函數中尋找到一個滿足你要求的最佳逼近函數,無疑大海撈針。我們再來回顧下第一章的曲線擬和問題：

需要逼近的函數是: ，M階的曲線函數可以逼近麼？這是我們值得思考的問題。

要曲線擬和, 那麼擬和的標準是什麼?這裏用了2範數定義,也就是誤差的歐式距離，當然,你可以用 L1,L無窮，等等了，只是objective不同罷了。現在的疑問是: 爲什麼要用Polynomial Fitting?有數學依據麼，這裏牽扯到範函的問題，就是函數所張成的空間，舉一個簡單的例子，大家還都記得 talyor展式吧：

這表明任意一個函數可以表示成 x的次方之和，也就是任意一個函數可以放到所張成的函數空間，如果是有限個基的話就稱爲歐式空間，無窮的話就是 Hilbert空間，其實傅里葉變換也是這樣的一個例子，既然已經明白了任意函數可以用Polynomial Fitting，那麼下面就是什麼樣的 Polynomial是最好的。
Wilbur_中博(1954123) 19:28:26
泰勒展開是局部的、x0周圍的，而函數擬合是全局的，似乎不太一樣吧？
planktonli(1027753147) 19:29:21
恩,泰勒展開是局部的，他是在 x0 點周圍的一個表達，函數擬合是全局的,我這裏只是用一個簡單的例子說明函數表達的問題。
Wilbur_中博(1954123) 19:30:41

planktonli(1027753147) 19:31:03
其實,要真正解釋這個問題是需要範函的東西的。
Wilbur_中博(1954123) 19:31:45
抱歉，打斷了一下，因爲我覺得這個問題留到討論就不太好了，呵呵。瞭解了，請繼續吧。
planktonli(1027753147) 19:31:51
由於大多數羣友未學過這個課程,我只是想說下這個思想，呵呵,沒事，討論才能深刻理解問題，其實,wavelet這些,包括 kernel construcion這些東西都牽扯到範函。
Bishop用上面這個例子說明：
1) 可以用 Polynomial Fitting 擬和 sin類的函數 2) 存在過擬和問題
而且這裏的 Polynomial Fitting 是一個線性model，這裏Model是w的函數,w是線性的：

是線性的麼，肯定不是，那麼讓我們再來分析下研究的問題
中的 x 是1維的

上面的X 變成了
 ，非常有意思的是: 維數升高了，同時這個model具有了表達非線性東西的

能力。這裏的思想,可以說貫穿在 NN,SVM這些東西里，也就是說,線性的model如果應用得當的話,可以表達非線性的東西。與其在所有函數空間盲目的尋找,還不如從一個可行的簡單model開始，這就是爲什麼Bishop在講完基礎後直接切入 Linear regression的原因，當然這個線性model怎麼構造,是單層的 linear model,還是多層的 linear model 一直爭論不休，BP否定了 perceptron 的model，SVM 否定了 BP model
現在deep learning 又質疑 SVM 的shallow model，或許這就是machine learning還能前進的動力。
讓咱們再回來看看linear regression 的模型，這裏從標準形式到擴展形式，也就是引入基函數後,Linear regression的模型可以表達非線性的東西了，因爲基函數可能是非線性的：

基函數的形式，這些基函數都是非線性的：

在Gaussian 零均值情況下,Linear model從頻率主義出發的MLE就是 Least square：

最小2乘的解就是廣義逆矩陣乘輸出值：

Gaussian的precision也可以計算出來：

最小2乘的解可以看成到基張成空間的投影：

頻率主義會導致過擬和，加入正則,得到的最小2乘解：

正則參數對model結果的影響：

消除過擬和，正則的幾何解釋：

正則方法不同,就會出現很多model,例如 lasso, ridge regression。LASSO的解是稀疏的，例如:sparse coding,Compressed sensing 是從 L0–> L1sparse的問題，現在也很熱的。

下面看 Bias-Variance Decoposition，正則就是在訓練數據的模型上加一個懲罰項，shrink 模型的參數,讓它不要學習的太過，這裏是對訓練數據學習到的模型,是學習到的參數的懲罰模型

上面這麼多PPT無非就是說，學習到的模型和真實的模型的期望由2部分組成：

1–> Bias 2–> Variance。Bias表示的是學習到的模型和真實模型的偏離程度,Variance表示的是學習到的模型和它自己的期望的偏離程度。從這裏可以看到正則項在控制 Bias 和 Variance：

Wilbur_中博(1954123) 20:33:07
這個是關鍵，呵呵
planktonli(1027753147) 20:33:25
Variance小的情況下,Bias就大，Variance大的情況下,Bias就小，我們就要tradeoff它們。

從這張圖可以看到 Bias和 Variance的關係：

這個Bias-Variance Decoposition 其實沒有太大的實用價值，它只能起一個指導作用。
下面看看 Bayesian Linear Regression：

從Bayesian出發,關注的不是參數的獲取,而更多的是新預測的值，通過後驗均值可以得到 linear model和核函數的聯繫，當然也可以建立 gaussian process這些東西。
Wilbur_中博(1954123) 20:51:25
這裏可以講細一點麼，如何建立聯繫？
planktonli(1027753147) 20:54:44

這裏就可以看到了啊，看到了麼，Wilbur?
Wilbur_中博(1954123) 20:57:24
在看
planktonli(1027753147) 20:58:08
如果共扼先驗是 0均值情況下,linear model就可以變成 kernel了：

最後講了bayesain model比較：

選擇最大信任的model來作爲模型選擇，而非用交叉驗證，信任近似：

固定基存在缺陷爲 NN,SVM做鋪墊，NN,SVM都是變化基，BP是梯度下降error,固定基，RBF是聚類尋找基，SVM是2次凸優化尋找基。好了,就講到這裏吧，肯定還有講的不對,或者不足的地方，請大家一起討論和補充，謝謝。

============================討論===============================

Wilbur_中博(1954123) 21:08:29
RBF不是固定徑向基找係數的麼，SVM也是固定基的吧，這裏尋找基是什麼意思？
planktonli(1027753147) 21:09:01
SVM是尋找那些係數不爲0的作爲基，RBF,我說的是RBF神經網絡，不是RBF基函數，呵呵
Wilbur_中博(1954123) 21:11:07
嗯，但咱們現在這一章，比如多項式基，也可以說是尋找係數不爲0的x^k吧，SVM也仍然是固定了某一種核，比如多項式核或者高斯核。嗯，我知道是說RBF網絡。
planktonli(1027753147) 21:11:40
恩,可以這麼說

Wilbur_中博(1954123) 21:12:35
還有就是，固定一組基的話，也有很多選擇，有多項式、也有高斯、logisitic等等，那我們應該怎麼選擇用什麼基去做迴歸呢？這一章講得大多都是有了基以後怎麼選擇w，但怎麼選擇基這一點有沒有什麼說法。
planktonli(1027753147) 21:13:37
我說的固定指的是,SVM不知道基是誰，而是通過優化獲取的。
Wilbur_中博(1954123) 21:13:41
或者小波傅里葉什麼的。。好多基
planktonli(1027753147) 21:14:03
這裏提出了固定基的問題，基的選擇要看樣本的幾何形狀，一般都是選擇 gaussian，當然也可以一個個測試着弄。
Wilbur_中博(1954123) 21:15:55
SVM裏有個叫multiple kernel learning的，感覺像是更廣泛的變化基的解決方案。嗯，就是說大多是經驗性的是吧，選基這個還是蠻有趣的，我覺得。
planktonli(1027753147) 21:16:45
恩,MK是多個kernel的組合，嘗試用多個幾何形狀的kernl去尋找一個更power的。
Wilbur_中博(1954123) 21:17:05
嗯，呵呵
planktonli(1027753147) 21:17:16
恩,kernel construction是ML的主要研究內容之一
Wilbur_中博(1954123) 21:18:14
好的，我沒什麼問題了，謝謝，以後多交流。看其他朋友還有什麼問題。
planktonli(1027753147) 21:50:29
本次的講義有些內容是羣共享裏的 Linear1.pdf
下次的linear classification主要講的內容在羣共享中爲Linear2.pdf

注：PRML讀書會系列文章由 @Nietzsche_複雜網絡機器學習同學授權發佈，轉載請註明原作者和相關的主講人，謝謝。

PRML讀書會講稿PDF版本以及更多資源下載地址：http://vdisk.weibo.com/u/1841149974

本文鏈接地址：http://www.52nlp.cn/prml讀書會第三章-linear-models-for-regression

PRML讀書會第三章 Linear Models for Regression

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

Shell/Python中的用戶名獲取

普利策獎《哥德爾、埃舍爾、巴赫——集異璧之大成》

PRML讀書會第三章 Linear Models for Regression

Python實現貝葉斯推斷及其互聯網應用：拼寫檢查

【scikit-learn】Python分類實例

譜聚類算法原理介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結