線性迴歸
可以認爲是多項式迴歸的一個特例吧,最高次冪是1的多項式迴歸。可以有多個參數或者叫維度。
所有的課程都很熱衷於用房價來展示,看來國內外都不可避免。
也有用蟲子與溫度關係表示:
這裏, 是屬於 的向量,只有一個維度, 表示每分鐘的蟲子名叫次數。爲了根據蟲子鳴叫的次數預測溫度,我們可以通過一個線性方程表達。
這裏 稱爲參數(也稱爲權重),推廣到一般形式,當參數有多個的時候,如下面的公式表示:
這個就轉成矩陣的表達方式。(機器學習中,很多都是轉成了矩陣的方式,這讓我很多時候理解起來比較困難,主要是線性代數扔的太久了,好多特性和符號都忘記了。不過要是想學好機器學習,線性代數非常必要,得重新撿起來。)
既然設計了預測的函數,就碰到一個在現在機器學習裏非常重要的問題,就是如何衡量結果的好壞。這個非常重要,至少在我看來,現在大部分的算法都是確定了一個模型之後,把主要的工作和精力都放在計算結果好壞了上,用了各種最優化的方法,做這些事情。不過我還在初學階段,等後面學多了說不定有不同的東西。
線性迴歸,教程提出的衡量結果好壞都是用方差來表示,定義了一個損失函數(cost function):
從圖中可以看出不同的 選擇會出現不同的損失
我們的目標就變成了找到一組合適的 ,使得函數 最小
總結下我現在得到的東西:
機器學習,或者說監督學習,通過構造一個確定的模型(估計就是我們以後學習的不同算法,線性迴歸、決策樹、支持向量機等),明確需要的輸入數據(看起來輸入數據是向量的集合,每條數據是一個向量,構造了一個巨大的矩陣),最後明確損失函數。這樣一個算法的構造就完成了,後續的工作就是找到一組參數,使得損失函數最小。把現實問題轉換成了一個最優化問題,不知道我這樣的理解對不對。
如果這樣的話,人蔘與的內容也會比較多,需要選取足夠的特徵,構造精巧的模型才行,可能這就是現在深度學習流行的原因吧,貌似這些都可以機器自己搞定。
希望能隨着學習的深入更加明確,加油~