梯度下降 gradient descent

文章目錄

導數

導數反映的是函數 $f(x)$ 在 $x$ 軸上某一點處沿着 $x$ 軸正方向的變化率/變化趨勢。

$f'(x_0)=\lim_{\Delta x \to 0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x \to 0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}$

$f'(x)>0$ ，說明 $f(x)$ 的函數值在 $x$ 點沿 $x$ 軸正方向趨於增加。
$f'(x)<0$ ，說明 $f(x)$ 的函數值在 $x$ 點沿 $x$ 軸正方向趨於減少。

偏導數

因爲曲面上的每一點都有無窮多條切線，描述曲面函數的導數相當困難。偏導數就是選擇其中一條切線，並求出它的斜率。

假設 $ƒ$ 是一個多元函數。例如：

$z = f(x, y) = x^2 + xy + y^2$

一種求出這些切線的好辦法是把其他變量視爲常數。例如，欲求出以上的曲面函數在點 $（1, 1, 3）$ 與 $y = 1$ 平面的切線。（右圖爲 $y = 1$ 切面）
我們把變量 $y$ 視爲常數，過對 $x$ 求導：

${\frac {\partial z}{\partial x}}=2x+y$
得到點（1, 1, 3）的與 $xOz$ 平面平行的切線的斜率爲 3。

一般地，函數 $f(x_1,...,x_n)$ 在點 $(a_1,...,a_n)$ 關於 $x_i$ 的偏導數定義爲：

${\frac {\partial f}{\partial x_{i}}}(a_{1},\ldots ,a_{n})=\lim _{h\to 0}{\frac {f(a_{1},\ldots ,a_{i}+h,\ldots ,a_{n})-f(a_{1},\ldots ,a_{n})}{h}}$

方向導數

導數和偏導數的定義中，均是沿座標軸正方向討論函數的變化率。而方向導數則是求某一點在某一趨近方向上的導數值，反映函數在特定方向上的變化率：

梯度

梯度即函數在某一點最大的方向導數，函數沿梯度方向函數有最大的變化率，梯度的值是最大方向導數的值。

利用有限差值計算梯度

對 $x$ 所有維度進行迭代，在每個維度上產生一個很小的變化 $h$ ，通過觀察函數值變化，計算函數在該維度上的偏導數。最後，所有的梯度存儲在變量 grad 中：

def eval_numerical_gradient(f, x):
  """  
  一個f在x處的數值梯度法的簡單實現
  - f是隻有一個參數的函數
  - x是計算梯度的點
  """ 

  fx = f(x) # 在原點計算函數值
  grad = np.zeros(x.shape)
  h = 0.00001

  # 對x中所有的索引進行迭代
  it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
  while not it.finished:

    # 計算x+h處的函數值
    ix = it.multi_index
    old_value = x[ix]
    x[ix] = old_value + h # 增加h
    fxh = f(x) # 計算f(x + h)
    x[ix] = old_value # 存到前一個值中 (非常重要)

    # 計算偏導數
    grad[ix] = (fxh - fx) / h # 坡度
    it.iternext() # 到下個維度

  return grad

實際中用中心差值公式（centered difference formula） $[f(x+h)-f(x-h)]/2h$ 效果較好。

代價函數的梯度

對於 1 維特徵的假設函數：

$h_{θ}(x) = θ_0 + θ_1 * x$

不同參數的 $θ_i$ 可以擬合出不同的直線：

代價函數 $J(θ)$ 隨參數 $θ_i$ 的變化而變化：

有 2 維特徵時，代價函數表現爲曲面圖。
優化目標函數，可以沿着 負梯度方向 不斷下降，逐步降低函數損失值，以此達到最優點：

$θ_0, θ_1$ 初始值不同的時候，可能會找到不同局部最小值，這個正是 梯度下降算法 的特點。
一般線性迴歸的代價函數都是凸函數，只有一個全局最優值，如下圖：

梯度下降的詳細算法

先決條件

確認優化模型的 假設函數 和 代價函數。比如對於線性迴歸，假設函數表示爲:

$h_\theta(x_1, x_2, ...x_n) = \theta_0x_0 + \theta_{1}x_1 + ... + \theta_{n}x_{n}$

即：
$h_\mathbf{\theta}(\mathbf{X}) = \mathbf{X\theta}$

其中 $θ_i$ 爲模型參數， $x_i$ 爲每個樣本 $x$ 的第 $i$ 個特徵值。 $X$ 爲 $m * (n+1)$ 維的矩陣， $m$ 代表樣本的個數， $n+1$ 代表樣本的特徵數，多加的1維作爲偏置項。
對應於上面的假設函數，代價函數爲：

$J(\theta_0, \theta_1..., \theta_n) = \frac{1}{2m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y^{(j)})^2$

即：
$J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y})$
其中 $Y$ 是樣本的標籤值，維度爲 $m*1$

算法過程

確定當前位置的代價函數的梯度，對於 $θ$ 向量，其梯度表達式如下：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) =\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)= \frac{1}{m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y^{(j)})x_i^{(j)}$

即：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) = \mathbf{X}^T(\mathbf{X\theta} - \mathbf{Y})$
用學習速率 $α$ 乘以代價函數的梯度，得到當前位置將要下降的距離：
$\alpha\frac{\partial}{\partial\theta}J(\theta) =\alpha\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)$
同步更新所有的 $θ$ ，對於 $θ_i$ ，其更新表達式如下。更新完畢後繼續轉入步驟1。

$\theta_i = \theta_i - \alpha\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)$

即：

$\mathbf\theta= \mathbf\theta - \alpha\mathbf{X}^T(\mathbf{X\theta} - \mathbf{Y})$

代價損失中 θ 偏導數公式推導

代價損失函數對於 $θ_i$ 的偏導數計算，推導如下：

假設函數：

$h_\theta(x_1, x_2) = \theta_0x_0 + \theta_{1}x_1$

代價損失函數：

$J(\theta_0, \theta_1)=\frac{1}{2m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}) - y^{(j)})^2$

$=\frac{1}{2m}\sum\limits_{j=0}^{m}((\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)}) - y^{(j)})^2$

$=\frac{1}{2m}\sum\limits_{j=0}^{m}((\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)})^2 + {y^{(j)}}^2 - 2(\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)})y^{(j)})$

$=\frac{1}{2m}\sum\limits_{j=0}^{m}(\theta_0^2{x_0^{(j)}}^2 + \theta_1^2{x_1^{(j)}}^2 + 2\theta_0x_0^{(j)}\theta_{1}x_1^{(j)}+ {y^{(j)}}^2 - 2\theta_0x_0^{(j)}y^{(j)} - 2\theta_{1}x_1^{(j)}y^{(j)})$

代價損失函數對於 $θ_0$ 的偏導數：
$\frac{\partial}{\partial\theta_0}J(\theta_0, \theta_1)= \frac{1}{2m}\sum\limits_{j=0}^{m}(2\theta_0{x_0^{(j)}}^2 + 2x_0^{(j)}\theta_{1}x_1^{(j)}- 2x_0^{(j)}y^{(j)} )$

$= \frac{1}{m}\sum\limits_{j=0}^{m}(\theta_0{x_0^{(j)}}^2 + x_0^{(j)}\theta_{1}x_1^{(j)}- x_0^{(j)}y^{(j)} )$

$= \frac{1}{m}\sum\limits_{j=0}^{m}(\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)}-y^{(j)} )x_0^{(j)}$

$= \frac{1}{m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}) - y^{(j)})x_0^{(j)}$

即：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) =\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)= \frac{1}{m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y^{(j)})x_i^{(j)}$

即：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) = \mathbf{X}^T(\mathbf{X\theta} - \mathbf{Y})$

批量梯度下降（Batch Gradient Descent，BGD）

批量梯度下降法，就是在梯度下降的每一步中，都 使用所有的樣本 來進行更新。前面的梯度下降算法過程，就是批量梯度下降法。

$\theta_i = \theta_i - \alpha\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$

由於我們有 $m$ 個樣本，這裏求梯度的時候就用了所有 $m$ 個樣本的梯度數據。
在大規模的應用中（比如ILSVRC挑戰賽），訓練數據可以達到百萬級量級。如果像這樣計算整個訓練集，來獲得僅僅一個參數的更新就太浪費了。

隨機梯度下降法（Stochastic Gradient Descent，SGD）

隨機梯度下降法，其實和批量梯度下降法原理類似，區別在與求梯度時沒有用所有的 $m$ 個樣本的數據，而是僅僅選取一個樣本 $j$ 來求梯度。對應的更新公式是：

$\theta_i = \theta_i - \alpha (h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$

隨機梯度下降法，和批量梯度下降法是兩個極端，一個採用所有數據來梯度下降，一個用 1 個樣本來梯度下降。自然各自的優缺點都非常突出。
對於訓練速度來說，隨機梯度下降法由於每次僅僅採用 1 個樣本來迭代，訓練速度很快，而批量梯度下降法在樣本量很大的時候，訓練速度不能讓人滿意。
對於準確度來說，隨機梯度下降法用於僅僅用一個樣本決定梯度方向，導致解很有可能不是最優。對於收斂速度來說，由於隨機梯度下降法一次迭代一個樣本，導致迭代方向變化很大，不能很快的收斂到局部最優解。

小批量梯度下降法（Mini-batch Gradient Descent，MBGD）

小批量梯度下降法是批量梯度下降法和隨機梯度下降法的折衷，也就是對於 $m$ 個樣本，我們採用 $x$ 個樣本來迭代， $1<x<m$ 。
小批量數據的大小是一個超參數，但是一般並不需要通過交叉驗證來調參。它一般由存儲器的限制來決定的，比如 32，64，128 等。之所以使用2的指數，是因爲在實際中許多向量化操作實現的時候，如果輸入數據量是 2 的倍數，那麼運算更快。
對應的更新公式是：

$\theta_i = \theta_i - \alpha \sum\limits_{j=t}^{t+x-1}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$
使用向量化操作的代碼，一次計算 100 個數據比100次計算 1 個數據要高效很多。

梯度下降 gradient descent

文章目錄

導數

偏導數

方向導數

梯度

代價函數的梯度

梯度下降的詳細算法

先決條件

算法過程

代價損失中 θ 偏導數公式推導

批量梯度下降（Batch Gradient Descent，BGD）

隨機梯度下降法（Stochastic Gradient Descent，SGD）

小批量梯度下降法（Mini-batch Gradient Descent，MBGD）

《日本蠟燭圖》讀書筆記 & 技術分析回測

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

偏差、方差、欠擬合、過擬合、學習曲線

評估指標：混淆矩陣、PR、mAP、ROC、AUC

梯度下降優化算法

分類評分函數 score function

梯度下降 gradient descent

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結