李宏毅深度學習筆記(三) 特徵縮放(Feature Scaling)

爲什麼要進行特徵縮放

比如說我們這裏有一個函數:

y=b+w1x1+w2x2y=b+w_1x_1+w_2x_2

接下來我們分兩種情況來對比一下,從而說明我們爲什麼要進行特徵縮放:
在這裏插入圖片描述
左上角的框圖和右上角的框圖都能表示我們在最開始提出的函數,不同的是左上角的框圖中x1x_1的取值是1,2····;x2x_2的取值是100,200······;右上角的框圖中x1x_1的取值是1,2······;x2x_2的取值是1,2······。將左上角所示的式子的等高圖畫出來如左下角所示,因爲在左上角的情況下隨着w1w_1的改變,yy的變化比較小,而隨着w2w_2的變化yy的變化會比較大,因此形成了左下角所示的橢圓形狀。將右上角所示的式子的等高圖畫出來如右下角所示,因爲在右上角的情況下隨着w1w_1w2w_2的改變,yy的變化基本相同,因此形成了右下角所示的圓形。

我們知道梯度下降的方向是沿着等高線的法線方向的如圖中紅色箭頭所示,可以看到右下角的紅色箭頭幾乎是沿一條直線朝着最低點運動過去的,而左下角的紅色箭頭是改變了多次方向才朝着最低點運動過去的。

所以當特徵值有相似的範圍的話梯度下降會比較快。

怎麼進行特徵縮放

在這裏插入圖片描述
也就是說要對紅色框裏面的xirx_i^r進行特徵縮放的話,就要先求出綠框裏面元素的平均值mim_i,再求出綠框裏面元素的標準差σi\sigma_i,最後代入xirmiσi\frac{x_i^r-m_i}{\sigma_i}就可以求出縮放後的特徵值了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章