與簡單線性迴歸區別(simple linear regression)
多個自變量(x)多元迴歸模型
y=β0+β1x1+β2x2+ … +βpxp+ε
其中:β0,β1,β2… βp是參數
ε是誤差值多元迴歸方程
E(y)=β0+β1x1+β2x2+ … +βpxp估計多元迴歸方程:
y_hat=b0+b1x1+b2x2+ … +bpxp一個樣本被用來計算β0,β1,β2… βp的點估計b0, b1, b2,…, bp
估計流程 (與簡單線性迴歸類似)
6. 估計方法
使sum of squares最小
運算與簡單線性迴歸類似,涉及到線性代數和矩陣代數的運算
例子
一家快遞公司送貨:X1: 運輸里程 X2: 運輸次數 Y:總運輸時間
Time = b0+ b1*Miles + b2 * Deliveries
Time = -0.869 + 0.0611 Miles + 0.923 Deliveries
描述參數含義
b0: 平均每多運送一英里,運輸時間延長0.0611 小時
b1: 平均每多一次運輸,運輸時間延長 0.923 小時預測
如果一個運輸任務是跑102英里,運輸6次,預計多少小時?
Time = -0.869 +0.0611 102+ 0.923 6
= 10.9 (小時)如果自變量中有分類型變量(categorical data) , 如何處理?
英里數 次數 車型 時間
100 4 1 9.3
50 3 0 4.8
100 4 1 8.9
100 2 2 6.5
50 2 2 4.2
80 2 1 6.2
75 3 1 7.4
65 4 0 6
90 3 0 7.6
- 關於誤差的分佈
誤差ε是一個隨機變量,均值爲0
ε的方差對於所有的自變量來說相等
所有ε的值是獨立的
ε滿足正態分佈,並且通過β0+β1x1+β2x2+ … +βpxp反映y的期望值