簡單線性迴歸
kNN算法屬於分類(Classification),即label爲離散的類別型(categorical variable),如:顏色類別、手機品牌、是否患病等。
而簡單線性迴歸是屬於迴歸(regression),即label爲連續數值型(continuous numerical variable),如:房價、股票價格、降雨量等。
什麼是簡單線性迴歸?
所謂簡單,是指只有一個樣本特徵,即只有一個自變量;所謂線性,是指方程是線性的;所謂迴歸,是指用方程來模擬變量之間是如何關聯的。
簡單線性迴歸,其思想簡單,實現容易,與其背後強大的數學性質相關。同時也是許多強大的非線性模型(多項式迴歸、邏輯迴歸、SVM)的基礎。
最小二乘法
“最小二乘法”的核心就是保證所有數據偏差的平方和最小。(“平方”的在古時侯的稱謂爲“二乘”)
假設我們收集到一些戰艦的長度與寬度數據:
假如我們取前兩個點(238,32.4)(152, 15.5)就可以得到兩個方程
152*a+b=15.5
328*a+b=32.4
解這兩個方程得a=0.197,b=-14.48
那樣的話,我們可以得到這樣的擬合圖:
那麼如何確定此時的a,b就是最優解呢,a,b滿足什麼條件纔是最優解呢?最優解,指的是保證所有數據偏差的平方和最小,也就是說所有點到擬合線的距離和最小。