監督學習-線性迴歸(linear regression)
迴歸分析:分析不同變量之間存在的關係。
迴歸模型:刻畫不同變量之間關係的模型,如果這個模型是線性的,則稱爲線性迴歸模型。
在現實生活中,往往需要分析若干變量之間的關係,如碳排放量與氣候變暖之間的關係、某一商品廣告投入量與該商品銷售量之間的關係等。一旦確定了迴歸模型,就可以進行預測等分析工作,如從碳排放量預測氣候變化程度、從廣告投入量預測商品銷售等。
爲什麼叫線性迴歸?
由英國著名生物學家兼 統計學家高爾頓 Sir Francis Galton提出的
父母平均身高每增加一個單位, 其成年子女平均 身高只增加0.516個單位,它反映了這種“衰退 (regression)”效應(“迴歸”到正常人平均身高)。 雖然?和y之間並不總是具有“衰退”(迴歸)關 系,但是“線性迴歸”這一名稱就保留了下來了。
如何求取上述線性方程(預測方程)的參數?
我們學習線性迴歸方程中的目的就是通過訓練求得方程的參數,從而推得方程的一般形式用來預測以後的數據。
線性迴歸模型例子:
下表給出了莫納羅亞山(夏威夷島的活火山)從1970年到2005年每5年的二氧化 碳濃度,單位是百萬分比濃度 (Parts Per Million,ppm)。
將上表數據代入迴歸模型 :? = ?? + b
求取:最佳迴歸模型是最小化殘差平方和的均值,即要求8組(?, ?)數據得到的殘差平均值最小。殘差平均值最小隻與參數?和?有關,最優解即是使得殘差最小所對應的?和?的值。
迴歸模型參數求取:
記在當前參數下第?個訓練樣本的預測值爲
的標註值(實際值)與預測值之差記爲
訓練集中?個樣本所產生誤差總和爲:
目標:尋找一組?和?,使得誤差總和?(?, ?)值最小。在線性迴歸中,解決如此目標的方法叫最小二乘法。 一般而言,要使函數具有最小值,可對?(?, ?) 參數?和?分別求導,令其導數值爲零,再求取參數?和?的取值。