人工智能-統計機器學習-線性迴歸

原創

2020-06-21 16:47

監督學習-線性迴歸（linear regression）

迴歸分析：分析不同變量之間存在的關係。

迴歸模型：刻畫不同變量之間關係的模型，如果這個模型是線性的，則稱爲線性迴歸模型。

在現實生活中，往往需要分析若干變量之間的關係，如碳排放量與氣候變暖之間的關係、某一商品廣告投入量與該商品銷售量之間的關係等。一旦確定了迴歸模型，就可以進行預測等分析工作，如從碳排放量預測氣候變化程度、從廣告投入量預測商品銷售等。

爲什麼叫線性迴歸？

由英國著名生物學家兼統計學家高爾頓 Sir Francis Galton提出的

父母平均身高每增加一個單位, 其成年子女平均身高只增加0.516個單位，它反映了這種“衰退 (regression)”效應（“迴歸”到正常人平均身高）。 雖然?和y之間並不總是具有“衰退”（迴歸）關系，但是“線性迴歸”這一名稱就保留了下來了。

如何求取上述線性方程（預測方程）的參數？

我們學習線性迴歸方程中的目的就是通過訓練求得方程的參數，從而推得方程的一般形式用來預測以後的數據。

線性迴歸模型例子：

下表給出了莫納羅亞山（夏威夷島的活火山）從1970年到2005年每5年的二氧化碳濃度，單位是百萬分比濃度（Parts Per Million，ppm）。

將上表數據代入迴歸模型：? = ?? + b

求取：最佳迴歸模型是最小化殘差平方和的均值，即要求8組(?, ?)數據得到的殘差平均值最小。殘差平均值最小隻與參數?和?有關，最優解即是使得殘差最小所對應的?和?的值。

迴歸模型參數求取：

記在當前參數下第?個訓練樣本的預測值爲

的標註值（實際值）與預測值之差記爲

訓練集中?個樣本所產生誤差總和爲：

目標：尋找一組?和?，使得誤差總和?(?, ?)值最小。在線性迴歸中，解決如此目標的方法叫最小二乘法。一般而言，要使函數具有最小值，可對?(?, ?) 參數?和?分別求導，令其導數值爲零，再求取參數?和?的取值。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.