監督學習1-線性迴歸

線性迴歸

可以認爲是多項式迴歸的一個特例吧,最高次冪是1的多項式迴歸。可以有多個參數或者叫維度。
所有的課程都很熱衷於用房價來展示,看來國內外都不可避免。
這裏寫圖片描述
也有用蟲子與溫度關係表示:
這裏寫圖片描述
這裏,x 是屬於R1 的向量,只有一個維度,x1 表示每分鐘的蟲子名叫次數。爲了根據蟲子鳴叫的次數預測溫度,我們可以通過一個線性方程表達。
hθ(x)=θ0+θ1x1
這裏θi 稱爲參數(也稱爲權重),推廣到一般形式,當參數有多個的時候,如下面的公式表示:
h(x)=i=0nθixi=θTx
這個就轉成矩陣的表達方式。(機器學習中,很多都是轉成了矩陣的方式,這讓我很多時候理解起來比較困難,主要是線性代數扔的太久了,好多特性和符號都忘記了。不過要是想學好機器學習,線性代數非常必要,得重新撿起來。

既然設計了預測的函數,就碰到一個在現在機器學習裏非常重要的問題,就是如何衡量結果的好壞。這個非常重要,至少在我看來,現在大部分的算法都是確定了一個模型之後,把主要的工作和精力都放在計算結果好壞了上,用了各種最優化的方法,做這些事情。不過我還在初學階段,等後面學多了說不定有不同的東西。

線性迴歸,教程提出的衡量結果好壞都是用方差來表示,定義了一個損失函數(cost function):
J(θ)=12i=1m(hθ(xi)yi)2
從圖中可以看出不同的θ 選擇會出現不同的損失
這裏寫圖片描述
我們的目標就變成了找到一組合適的θ ,使得函數J(θ) 最小

總結下我現在得到的東西:
機器學習,或者說監督學習,通過構造一個確定的模型(估計就是我們以後學習的不同算法,線性迴歸、決策樹、支持向量機等),明確需要的輸入數據(看起來輸入數據是向量的集合,每條數據是一個向量,構造了一個巨大的矩陣),最後明確損失函數。這樣一個算法的構造就完成了,後續的工作就是找到一組參數,使得損失函數最小。把現實問題轉換成了一個最優化問題,不知道我這樣的理解對不對。

如果這樣的話,人蔘與的內容也會比較多,需要選取足夠的特徵,構造精巧的模型才行,可能這就是現在深度學習流行的原因吧,貌似這些都可以機器自己搞定。

希望能隨着學習的深入更加明確,加油~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章