線性迴歸

迴歸

迴歸是監督學習的一個重要問題，輸入變量X和輸出變量Y均爲連續變量。迴歸問題按照X和Y之間關係的類型，分爲線性模型和非線性模型；按照輸入變量的個數，分爲一元迴歸和多元迴歸。

線性迴歸

根據數據的預處理，選定模型的假設空間，即包含所有可能的條件概率分佈或決策模型，線性迴歸的假設空間就是所有這些線性函數構成的函數集合。初始數據經過處理後，可通過直觀的圖形輸出的定性方法分析選擇假設空間。

import pandas as pd
import matplotlib.pyplot as plt

path = 'adverdataRaw.csv'
data = pd.read_csv(path)
x = data[['TV', 'Radio', 'Newspaper']]
y = data['Sales']

plt.plot(data['TV'], y, 'r.', label='TV')
plt.plot(data['Radio'], y, 'go', label='Radio')
plt.plot(data['Newspaper'], y, 'b^', label='Newspaper')
plt.legend(loc='lower right')
plt.grid()
plt.title('adverdataShow')
plt.savefig('adverdataShow.png')  # 在show之前，否則保存的是一張空白圖片
plt.show()

監督學習從訓練數據集合中學習模型，對測試數據進行預測。把初始數據進行切割分成訓練數據和測試數據時，訓練數據和測試數據應當儘可能互斥，即測試數據儘量不要在訓練數據中出現，未在訓練數據中使用。

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

線性迴歸模型求解

基於均方誤差最小化來進行模型求解的方法稱爲“最小二乘法”，它對應了常用的歐幾里得距離或簡稱“歐氏距離”。在線性迴歸中，最小二乘法是試圖找到一條直線，使所有樣本到直線上的歐氏距離之和最小。
- 對於一元線性迴歸，模型爲：
  $f (x i) = w x i + b （式 1 ）$
  
  根據均方差最小化，有
  
  $(x *, b *) = a r g m i n (w, b) \sum i = 1 m (f (x i) - y i) 2$
  $= a r g m i n (w, b) \sum i = 1 m (y i - w x i - b) 2 （式 2 ）$
- 對於多元線性迴歸，模型爲：
  $f (x i) = w T x i + b （式 3 ）$
  類似的，可以用最小二乘法來對w和b進行估計，把w和b吸收入向量形式
  $w ̂ = (w; b)$
  相應的，把數據集爲一個m*(d+1)大小的矩陣 X，其中每行對應一個示例，該行前d個元素對應於示例的d個屬性值，最後一個元素恆置爲1，即
  $X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟$
  再把標記也寫成向量形式
  $y = (y 1; y 2; \dots; y m)$
  則類似（式2），有
  $w ̂ * = a r g m i n w ̂ (y - X w ̂) T (y - X w ̂) （式 4 ）$
  令
  $E w ̂ = (y - X w ̂) T (y - X w ̂)$
  對ŵ 求導得到
  $( \partial E w ̂ ) ( \partial w ̂ ) = 2 X T (X w ̂ - y) （式 5 ）$
  令上式爲零得到ŵ 最優解的閉式解。
  當XTX 爲滿秩矩陣或正定矩陣時，令（式5）爲零可得
  $w ̂ * = (X T X) - 1 X T y （式 6 ）$
  其中(XTX)−1 是(XTX) 的逆矩陣。令x̂ i=(xi;1) ，則最終的多元線性迴歸模型爲
  $f (w ̂ i) = x ̂ T i (X T X) - 1 X T y （式 7 ）$
  
  Python的sklearn庫已經封裝好了線性迴歸模型，只需要調用即可
```
from sklearn.linear_model import LinearRegression
model = linearRegression.fit(x_train, y_train)

# print(model)



y_hat = linearRegression.predict(np.array(x_test))
mse = np.average((y_hat - np.array(y_test)) ** 2)  # mean squared error
rmse = np.sqrt(mse)  # root mean squared error


t = np.arange(len(x_test))
plt.plot(t, y_test, 'r-', linewidth=2, label='Test')
plt.plot(t, y_hat, 'g-', linewidth=2, label='Predict')
plt.legend(loc='upper right')
plt.grid()
plt.title('Test-Preict')
plt.savefig('adverdataTP.png')
plt.show()

print(linearRegression.coef_)   # 估計係數
print(linearRegression.intercept_)  # 常數項
print('mse=%f, rmse=%f' % (mse, rmse))
```
定量分析如下（各項係數、常數項、方差&標準差）
```
[ 0.04695205  0.17658644  0.00185115]
2.93721573469
mse=1.928925, rmse=1.388857
```
- 正則化
  式7中多元線性迴歸模型是在XTX 爲滿秩陣或正定陣時求得，然而，現實任務中XTX 往往不是滿秩陣。例如在許多任務中我們會遇到大量的變量，其數目甚至超過樣例數，導致X 的列數多於行數，XTX 顯然不是滿秩陣。此時可解出多個ŵ i ，它們都能使均方誤差最小化，選擇哪一個解作爲輸出將由算法的歸納偏好決定，常見的做法是引入正則化。
  
  正則化符合奧卡姆剃刀原理。奧卡姆剃刀原理應用於模型選擇時變爲一下想法：在所有可能選擇的模型中，能夠很好地解釋已知數據並且十分簡單纔是最好的模型。
  
  令Θ=(XTX)−1XTy ，則根據（式7）得到模型爲
  $y ̂ (Θ) = Θ X ̂ （式 8 ）$
  令Θ=(XTX+λI)−1XTy ，XTX 半正定：對於任意的非零向量μ
  $μ X T X μ = (X μ) T X μ （式 9 ）$
  令ν=Xμ ，可得νTν≥0
  
  所以，對於任意的實數λ>0,XTX+λI 正定，從而可逆，保證公式Θ=(XTX+λI)−1XTy 有意義。
  
  正則化項可以取不同的形式。在迴歸問題中，損失函數是平方損失，正則化可以是參數向量的L2 範數：
  $L (w) = 1 N \sum i = 1 N (f (x i; w) - y 2 i) + λ 2 ∥ w ∥ 2 （式 10 ）$
  式10中，∥w∥ 表示參數向量w 的L2 範數
  
  正則化也可以是參數向量的L1 範數：
  $L (w) = 1 N \sum i = 1 N (f (x i; w) - y 2 i) + ∥ w ∥ 1 （式 11 ）$
  式11中，∥w∥1 表示參數向量w 的L1 範數
  
  在sklearn庫中，LassoCV類封裝了L1正則，RidgeCV類封裝了L2正則，λ 先設置ndarray，然後讓系統篩選出最佳的那個
```
from sklearn.linear_model import LassoCV, RidgeCV
x_train, x_test, y_train, y_test = train_test_split(data_x, data_y, random_state=1)  # 數據切割
alpha = np.logspace(-4, 1, 100)

lasso_model = LassoCV(alphas=alpha, cv=5)  #L1 正則化，且爲5折交叉驗證
lasso_model.fit(x_train, y_train)
lasso_yhat = lasso_model.predict(np.array(x_test))

ridge_model = RidgeCV(alphas=alpha, cv=5) #L2 正則化，且爲5折交叉驗證
ridge_model.fit(x_train, y_train)
ridge_yhat = ridge_model.predict(np.array(x_test))

t = np.arange(len(x_test))


# 圖形（定性）分析

plt.plot(t, y_test, linewidth=2, label='Test')
plt.plot(t, lasso_yhat, linewidth=2, label='Predict')
plt.legend(loc='upper right')
plt.title('LassoCV')
plt.savefig('LassoCV.png')
plt.show()

plt.plot(t, y_test, linewidth=2, label='Test')
plt.plot(t, ridge_yhat, linewidth=2, label='Predict')
plt.legend(loc='upper right')
plt.title('RidgeCV')
plt.savefig('RidgeCV.png')
plt.show()


# 定量分析

lasso_mse = np.average((lasso_yhat - np.array(y_test)) ** 2)  # 方差
lasso_rmse = np.sqrt(lasso_mse)  # 標準差

ridge_mse = np.average((ridge_yhat - np.array(y_test)) ** 2)
ridge_rmse = np.sqrt(ridge_mse)

print('lasso model各項係數：', lasso_model.coef_, '常數項：', lasso_model.intercept_)  # 估計係數
print('lasso_mse:%f, lasso_rmse:%f' % (lasso_mse, lasso_rmse))
print('lasso model alpha：', lasso_model.alpha_)

print('ridge model各項係數：', ridge_model.coef_, '常數項：', ridge_model.intercept_)
print('ridge model alpha：', ridge_model.alpha_)
print('ridge_mse:%f, ridge_rmse:%f' % (ridge_mse, ridge_rmse))
```
定性分析（圖片）

定量分析，根據下面參數，可知Ridge比Lasso好點
```
lasso model各項係數： [ 0.04660234  0.18117916] 常數項： 2.92724792885
lasso_mse:1.926281, lasso_rmse:1.387905
lasso model alpha： 0.0001
ridge model各項係數： [ 0.04660234  0.18117959] 常數項： 2.92723733246
ridge model alpha： 0.0001
ridge_mse:1.926276, ridge_rmse:1.387903
```
- 參考書籍
  
  [1] 李航.統計學習方法
  
  [2] 周志華.機器學習
- 數據參考
  
  Advertising.csv

pip is broke

PyTorch筆記1-PyTorch簡介

Matplotlib os10.12.1環境下的中文配置

MAC 下定製Py交互式命令

PyTorch筆記4-快速構建神經網絡（NN）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結