機器學習-線性迴歸

概述

線性迴歸是利用數理統計中迴歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。其表達形式爲y = w’x+e,e爲誤差服從均值爲0的正態分佈。
迴歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種迴歸分析稱爲一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱爲多元線性迴歸分析
在這裏插入圖片描述
在這裏插入圖片描述
通過線性迴歸構造出來的函數一般稱之爲了線性迴歸模型。線性迴歸模型的函數一般寫作爲:
在這裏插入圖片描述

損失函數

在這裏插入圖片描述
把每條小豎線的長度加起來就是預測值與真實值的差距。那每條小豎線的長度的加和怎麼算?其實就是歐式距離加和,公式如下:
在這裏插入圖片描述
在這裏插入圖片描述
通過線性迴歸算法,我們可能會得到很多的線性迴歸模型,但是不同的模型對於數據的擬合或者是描述能力是不一樣的。我們的目的最終是需要找到一個能夠最精確地描述數據之間關係的線性迴歸模型。這是就需要用到代價函數。代價函數就是用來描述線性迴歸模型與正式數據之前的差異。如果完全沒有差異,則說明此線性迴歸模型完全描述數據之前的關係。如果需要找到最佳擬合的線性迴歸模型,就需要使得對應的代價函數最小,相關的公式描述如下:
在這裏插入圖片描述
Hypothesis:表示的就是線性迴歸模型
Cost Function:代價函數
Goal:就是要求對應的代價函數最小

線性迴歸模型求解

假設在線性迴歸模型中僅僅只存在一個函數,就是斜率參數。即theta-0是0。如果存在如下的數據:
在這裏插入圖片描述
圖中對應的3個點分別爲(1,1),(2,2),(3,3)那麼很明顯,最佳線性迴歸模型就是h(x)=x。如果通過實驗證明呢?我們畫出在theta-1處於不同值的代價函數。
在這裏插入圖片描述

線性迴歸模型的特點

建模速度快,不需要很複雜的計算,在數據量大的情況下依然運行速度很快。

可以根據係數給出每個變量的理解和解釋。

對異常值很敏感。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章