線性迴歸的基本內容
以房價預測來解釋線性迴歸的基本要素。
模型定義
設房屋的面積爲 x 1 x_1 x 1 ,房齡爲 x 2 x_2 x 2 ,售出價格爲 y y y 。我們需要建立基於輸入 x 1 x_1 x 1 和 x 2 x_2 x 2 來計算輸出 y y y 的表達式,也就是模型(model)。
y ^ = x 1 w 1 + x 2 w 2 + b
\hat{y} = x_1 w_1 + x_2 w_2 + b
y ^ = x 1 w 1 + x 2 w 2 + b
其中 w 1 w_1 w 1 和 w 2 w_2 w 2 是權重(weight),b b b 是偏差(bias),且均爲標量。它們是線性迴歸模型的參數(parameter)。模型輸出 y ^ \hat{y} y ^ 是線性迴歸對真實價格 y y y 的預測或估計。我們通常允許它們之間有一定誤差。
模型訓練
訓練就是通過數據來尋找特定的模型參數,使模型在數據集上的誤差儘可能小。
訓練數據
我們通常收集一系列的真實數據,例如多棟房屋的真實售出價格和它們對應的面積和房齡。在機器學習術語裏,該數據集被稱爲訓練數據集(training data set)或訓練集(training set),一棟房屋被稱爲一個樣本(sample),其真實售出價格叫作標籤(label),用來預測標籤的兩個因素叫作特徵(feature)。特徵用來表徵樣本的特點。
假設我們採集的樣本數爲 n n n ,索引爲 i i i 的樣本的特徵爲 x 1 ( i ) x_1^{(i)} x 1 ( i ) 和 x 2 ( i ) x_2^{(i)} x 2 ( i ) ,標籤爲 y ( i ) y^{(i)} y ( i ) 。對於索引爲 i i i 的房屋,線性迴歸模型的房屋價格預測表達式爲
y ^ ( i ) = x 1 ( i ) w 1 + x 2 ( i ) w 2 + b
\hat{y}^{(i)} = x_1^{(i)} w_1 + x_2^{(i)} w_2 + b
y ^ ( i ) = x 1 ( i ) w 1 + x 2 ( i ) w 2 + b
損失函數
在模型訓練中,我們需要衡量價格預測值與真實值之間的誤差。通常我們會選取一個非負數作爲誤差,且數值越小表示誤差越小。一個常用的選擇是平方函數。它在評估索引爲 i i i 的樣本誤差的表達式爲
ℓ ( i ) ( w 1 , w 2 , b ) = 1 2 ( y ^ ( i ) − y ( i ) ) 2 \ell^{(i)}(w_1, w_2, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2 ℓ ( i ) ( w 1 , w 2 , b ) = 2 1 ( y ^ ( i ) − y ( i ) ) 2
其中常數 1 2 \frac 1 2 2 1 使對平方項求導後的常數係數爲1,這樣在形式上稍微簡單一些。在機器學習裏,將衡量誤差的函數稱爲損失函數(loss function)。這裏使用的平方誤差函數也稱爲平方損失(square loss)。
通常,我們用訓練數據集中所有樣本誤差的平均來衡量模型預測的質量,即
ℓ ( w 1 , w 2 , b ) = 1 n ∑ i = 1 n ℓ ( i ) ( w 1 , w 2 , b ) = 1 n ∑ i = 1 n 1 2 ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) 2
\ell(w_1, w_2, b) =\frac{1}{n} \sum_{i=1}^n \ell^{(i)}(w_1, w_2, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2
ℓ ( w 1 , w 2 , b ) = n 1 i = 1 ∑ n ℓ ( i ) ( w 1 , w 2 , b ) = n 1 i = 1 ∑ n 2 1 ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) 2
在模型訓練中,我們希望找出一組模型參數,記爲 w 1 ∗ , w 2 ∗ , b ∗ w_1^*, w_2^*, b^* w 1 ∗ , w 2 ∗ , b ∗ ,來使訓練樣本平均損失最小:
w 1 ∗ , w 2 ∗ , b ∗ = arg min w 1 , w 2 , b ℓ ( w 1 , w 2 , b )
w_1^*, w_2^*, b^* = \underset{w_1, w_2, b}{\arg\min} \ell(w_1, w_2, b)
w 1 ∗ , w 2 ∗ , b ∗ = w 1 , w 2 , b arg min ℓ ( w 1 , w 2 , b )
優化算法
當模型和損失函數形式較爲簡單時,上面的誤差最小化問題的解可以直接用公式表達出來。這類解叫作解析解(analytical solution)。然而,大多數深度學習模型並沒有解析解,只能通過優化算法有限次迭代模型參數來儘可能降低損失函數的值。這類解叫作數值解(numerical solution)。
在求數值解的優化算法中,小批量隨機梯度下降(mini-batch stochastic gradient descent)在深度學習中被廣泛使用。它的算法很簡單:先選取一組模型參數的初始值,如隨機選取;接下來對參數進行多次迭代,使每次迭代都可能降低損失函數的值。在每次迭代中,先隨機均勻採樣一個由固定數目訓練數據樣本所組成的小批量(mini-batch)B \mathcal{B} B ,然後求小批量中數據樣本的平均損失有關模型參數的導數(梯度),最後用此結果與預先設定的一個正數的乘積作爲模型參數在本次迭代的減小量。
在訓練本節討論的線性迴歸模型的過程中,模型的每個參數將作如下迭代:
w 1 ← w 1 − η ∣ B ∣ ∑ i ∈ B ∂ ℓ ( i ) ( w 1 , w 2 , b ) ∂ w 1 = w 1 − η ∣ B ∣ ∑ i ∈ B x 1 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) , w 2 ← w 2 − η ∣ B ∣ ∑ i ∈ B ∂ ℓ ( i ) ( w 1 , w 2 , b ) ∂ w 2 = w 2 − η ∣ B ∣ ∑ i ∈ B x 2 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) , b ← b − η ∣ B ∣ ∑ i ∈ B ∂ ℓ ( i ) ( w 1 , w 2 , b ) ∂ b = b − η ∣ B ∣ ∑ i ∈ B ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) .
\begin{aligned}
w_1 &\leftarrow w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \frac{ \partial \ell^{(i)}(w_1, w_2, b) }{\partial w_1} = w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_1^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right),\\
w_2 &\leftarrow w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \frac{ \partial \ell^{(i)}(w_1, w_2, b) }{\partial w_2} = w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_2^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right),\\
b &\leftarrow b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \frac{ \partial \ell^{(i)}(w_1, w_2, b) }{\partial b} = b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right).
\end{aligned}
w 1 w 2 b ← w 1 − ∣ B ∣ η i ∈ B ∑ ∂ w 1 ∂ ℓ ( i ) ( w 1 , w 2 , b ) = w 1 − ∣ B ∣ η i ∈ B ∑ x 1 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) , ← w 2 − ∣ B ∣ η i ∈ B ∑ ∂ w 2 ∂ ℓ ( i ) ( w 1 , w 2 , b ) = w 2 − ∣ B ∣ η i ∈ B ∑ x 2 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) , ← b − ∣ B ∣ η i ∈ B ∑ ∂ b ∂ ℓ ( i ) ( w 1 , w 2 , b ) = b − ∣ B ∣ η i ∈ B ∑ ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) .
在上式中,∣ B ∣ |\mathcal{B}| ∣ B ∣ 代表每個小批量中的樣本個數(批量大小,batch size),η \eta η 稱作學習率(learning rate)並取正數。需要強調的是,這裏的批量大小和學習率的值是人爲設定的,並不是通過模型訓練學出的,因此叫作超參數(hyperparameter)。我們通常所說的“調參”指的正是調節超參數,例如通過反覆試錯來找到超參數合適的值。在少數情況下,超參數也可以通過模型訓練得到。
參考
動手學pytorch