梯度下降算法

1 導數

導數的幾何意義：導數又叫微分，是函數曲線的斜率。
偏導數的幾何意義：多元函數表示的是高維空間中的曲面，而曲面上的每一個點有無窮多條切線，求偏導就是選擇其中一條切線。

2 梯度

梯度的本意是一個向量（矢量），表示某一函數在該點處的方向導數沿着該方向取得最大值，即函數在該點處沿着該方向（此梯度的方向）變化最快，變化率最大（爲該梯度的模）在單變量的實值函數的情況，梯度只是導數，或者，對於一個線性函數，也就是線的斜率。(—百度百科)
一元函數 $y=f(x)$ 在點 $x_0$ 處的梯度是： $\frac{d_f}{d_x}|_{x=x_0}$ ；
二元函數 $z=f(x,y)$ 在點 $(x_0,y_0)$ 處的梯度是： $(\frac{\partial{f}}{\partial{x}}|_{(x_0,y_0)},\frac{\partial{f}}{\partial{y}}|_{(x_0,y_0)})$ ；
簡而言之，對多元函數的的各個自變量求偏導數，並把求得的這些偏導數寫成向量的形式，就是梯度。常把函數 $f$ 的梯度簡記爲： $\nabla{f}$ 或者 $\text{grad}f$ 。

例子：
函數 $\varphi=2x+3y^2+sin(x)$ 的梯度是：
$\nabla\varphi=(\frac{\partial{\varphi}}{\partial{x}},\frac{\partial{\varphi}}{\partial{y}},\frac{\partial{\varphi}}{\partial{z}})=(2,6y,-cos(z))$

（注意：梯度是一個向量）
要明確梯度是一個向量，是一個n元函數 $f$ 關於n個變量的偏導數，比如三元函數 $f$ 的梯度爲 $(fx,fy,fz)$ ，二元函數f的梯度爲 $(fx,fy)$ ，一元函數 $f$ 的梯度爲 $fx$ 。然後要明白梯度的方向是函數f增長最快的方向，梯度的反方向是f降低最快的方向。

3 梯度下降的場景假設

梯度下降法的基本思想可以類比爲一個下山的過程。假設這樣一個場景：一個人被困在山上，需要從山上下來(i.e. 找到山的最低點，也就是山谷)。但此時山上的濃霧很大，導致可視度很低。因此，下山的路徑就無法確定，他必須利用自己周圍的信息去找到下山的路徑。這個時候，他就可以利用梯度下降算法來幫助自己下山。具體來說就是，以他當前的所處的位置爲基準，尋找這個位置最陡峭的地方，然後朝着山的高度下降的地方走，同理，如果我們的目標是上山，也就是爬到山頂，那麼此時應該是朝着最陡峭的方向往上走。然後每走一段距離，都反覆採用同一個方法，最後就能成功的抵達山谷。

我們同時可以假設這座山最陡峭的地方是無法通過肉眼立馬觀察出來的，而是需要一個複雜的工具來測量，同時，這個人此時正好擁有測量出最陡峭方向的能力。所以，此人每走一段距離，都需要一段時間來測量所在位置最陡峭的方向，這是比較耗時的。那麼爲了在太陽下山之前到達山底，就要儘可能的減少測量方向的次數。這是一個兩難的選擇，如果測量的頻繁，可以保證下山的方向是絕對正確的，但又非常耗時，如果測量的過少，又有偏離軌道的風險。所以需要找到一個合適的測量方向的頻率，來確保下山的方向不錯誤，同時又不至於耗時太多！
引自：六尺帳篷鏈接：https://www.jianshu.com/p/c7e642877b0e

4 微分

看待微分的意義，可以有不同的角度，最常用的兩種是：

函數圖像中，某點的切線的斜率
函數的變化率

5 梯度下降實例分析

梯度下降的基本過程就和下山的場景很類似。
首先，我們有一個可微分的函數。這個函數就代表着一座山。我們的目標就是找到這個函數的最小值，也就是山底。根據之前的場景假設，最快的下山的方式就是找到當前位置最陡峭的方向，然後沿着此方向向下走，對應到函數中，就是找到給定點的梯度，然後朝着梯度相反的方向，就能讓函數值下降的最快！因爲梯度的方向就是函數之變化最快的方向。所以，我們重複利用這個方法，反覆求取梯度，最後就能到達局部的最小值，這就類似於我們下山的過程。而求取梯度就確定了最陡峭的方向，也就是場景中測量方向的手段。那麼爲什麼梯度的方向就是最陡峭的方向呢？
通過實例說明：
對於Rosenbrock函數： $f(x,y)=(1-x)^2+100(y-x^2)^2$ ，使用梯度下降算法求解最小值，函數模型：

模型的代碼：

# -*- coding: utf-8 -*-
import numpy as np
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import animation as amat

"this function: f(x,y) = (1-x)^2 + 100*(y - x^2)^2"


def Rosenbrock(x, y):
    return np.power(1 - x, 2) + np.power(100 * (y - np.power(x, 2)), 2)


def show(X, Y, func=Rosenbrock):
    fig = plt.figure()
    ax = Axes3D(fig)
    X, Y = np.meshgrid(X, Y, sparse=True)
    Z = func(X, Y)
    plt.title("gradeAscent image")
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='rainbow', )
    ax.set_xlabel('x label', color='r')
    ax.set_ylabel('y label', color='g')
    ax.set_zlabel('z label', color='b')
    amat.FuncAnimation(fig, Rosenbrock, frames=200, interval=20, blit=True)
    plt.show()

if __name__ == '__main__':
    X = np.arange(-2, 2, 0.1)
    Y = np.arange(-2, 2, 0.1)
    Z = Rosenbrock(X, Y)
    show(X, Y, Rosenbrock)

我們求解出它的梯度方向 $grad(f(x,y)) = ( -2*( 1 - x ) -400( y - x*x )*x$ ， $200(y - x*x))$ 沿着該梯度的反方向就可以快速確定 $x$ ， $y$ 位置的最小點。即最小值 $f(1,1)_{min} = 0$

數據變化1：

效果圖2：

數據變化截圖：

代碼：

# -*- coding: utf-8 -*-
import random

import numpy as np
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import animation as amat

"this function: f(x,y) = (1-x)^2 + 100*(y - x^2)^2"


def Rosenbrock(x, y):
    return np.power(1 - x, 2) + np.power(100 * (y - np.power(x, 2)), 2)


def show(X, Y, func=Rosenbrock):
    fig = plt.figure()
    ax = Axes3D(fig)
    X, Y = np.meshgrid(X, Y, sparse=True)
    Z = func(X, Y)
    plt.title("gradeAscent image")
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='rainbow', )
    ax.set_xlabel('x label', color='r')
    ax.set_ylabel('y label', color='g')
    ax.set_zlabel('z label', color='b')
    plt.show()


def drawPaht(px, py, pz, X, Y, func=Rosenbrock):
    fig = plt.figure()
    ax = Axes3D(fig)
    X, Y = np.meshgrid(X, Y, sparse=True)
    Z = func(X, Y)
    plt.title("gradeAscent image")
    ax.set_xlabel('x label', color='r')
    ax.set_ylabel('y label', color='g')
    ax.set_zlabel('z label', color='b')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='rainbow', )
    ax.plot(px, py, pz, 'r.')  # 繪點
    plt.show()


def gradeAscent(X, Y, Maxcycles=10000, learnRate=0.0008):
    # x, Y = np.meshgrid(X, Y, sparse=True)
    new_x = [X]
    new_Y = [Y]
    g_z=[Rosenbrock(X, Y)]
    current_x = X
    current_Y = Y
    for cycle in range(Maxcycles):
        "爲了更好的表示grad,我這裏對表達式不進行化解"
        current_Y -= learnRate * 200 * (Y - X * X)
        current_x -= learnRate * (-2 * (1 - X) - 400 * X * (Y - X * X))
        X = current_x
        Y = current_Y
        new_x.append(X)
        new_Y.append(Y)
        g_z.append(Rosenbrock(X, Y))
    return new_x, new_Y, g_z


if __name__ == '__main__':
    X = np.arange(-3, 4, 0.1)
    Y = np.arange(-3, 4, 0.1)
    x = random.uniform(-3, 4)
    y = random.uniform(-3, 4)
    print x,y
    x, y, z = gradeAscent(x, y)
    print len(x),x
    print len(y),y
    print len(z),z
    drawPaht(x, y, z, X, Y, Rosenbrock)

在實際過程中，需要使用電腦處理一些數據的時候，在此過程中，需要找到數據之間的關係，我們會使用生成函數方式來構造一個，我們稱之爲生成函數，或者母函數或者其他。
電腦處理數據的過程是：需要我們手動給予一個通用表達式，比如線性的，我們需要設定它爲 $y=kx+b$ ，然後在給電腦這些數據，告訴它說，這些個數據是線性相關的，你去找到一個 $k，b$ ，使這些點儘可能的滿足這個方程吧！而這個過程我們又將它稱之爲擬合過程。
所以呢？面對一堆數據，而我們給定了一個通用的表達式比如：
$h_\theta(x) = \theta_0+\theta_1x_1+\theta_2x_2$
其中， $\theta$ 爲每一個特徵變量的權重，比如特徵 $x_1$ 的權重爲 $\theta_1$ ，我們設定 $x_0=1$ ，然後我們將其簡化爲：
$h(x)=\sum_{i=0}^n\theta_ix_i$
如果我們在將其轉化成多維空間的話，其實可以使用還可以這樣：
$h(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx，$
但是到這裏,這裏依舊還只是一個通試而已,那麼我們該如何使用其那些數據呢？
這時候，我們需要來引入一個新的函數，來評估這個通式(我們可以隨機給這個式子權重賦值)與實際的值是否在可接收的範圍！
但是到這裏，這裏依舊還只是一個通試而已，那麼我們該如何使用其那些數據呢？
這時候，我們需要來引入一個新的函數，來評估這個通式(我們可以隨機給這個式子權重賦值)與實際的值是否在可接收的範圍！
$J(\theta)=\frac{1}{2m}\sum_{i=0}^{m}(h_\theta(x^{(i)}-y^{(i)})^2，$
這個函數稱謂有兩種,一種是損失函數(Loss function),一種是誤差函數(Error function)。

6 代價函數(Cost Function)

注：文中使用的符號 $:=$ 是賦值運算符，它本身是計算機語言中的符號，屋恩達使用這個符號，所以網上很多資料也爲了保持一致使用這個符號，但是在數學中，並沒有見過這個符號！！！！！！
代價函數（有的地方也叫損失函數，Loss Function），因爲訓練模型的過程就是優化代價函數的過程，代價函數對每個參數的偏導數就是梯度下降中提到的梯度，防止過擬合時添加的正則化項也是加在代價函數後面的。
我們可以用成本函數來衡量假設函數的準確性。它取輸入x後的假設值和實際輸出y的所有結果的平均值差(實際上是平均值的更漂亮的版本)。
$J(\theta_0, \theta_1) = \dfrac {1}{2m} \displaystyle \sum _{i=1}^m \left ( \hat{y}_{i}- y_{i} \right)^2 = \dfrac {1}{2m} \displaystyle \sum _{i=1}^m \left (h_\theta (x_{i}) - y_{i} \right)^2$
說明一下這個式子的含義：
$m$ 是數據集中點的個數； $1/2$ 這樣是爲了在求梯度的時候，二次方乘下來就和這裏的 $½$ 抵消了，自然就沒有多餘的常數係數，方便後續的計算，同時對結果不會有影響； $y$ 是數據集中每個點的真實值； $h$ 是預測值。
這個函數因此也稱爲 “Squared error function”，或者"Mean squared error"。
$J$ 表示給定的函數預測值和實際值Y的均方差，它反映的是預測值與實際值的一個偏離的程度。
我們是否可以用梯度下降算法來快速的無限逼近 $\theta$ ，使得 $J$ 達到最小，當 $J$ 達到最小的時候，那麼我們這個時候的 $\theta$ ，不就是無限接近真實且理想的的那個權重 $\theta$ 麼？

7 批量梯度下降算法(BGD)

然後我們再按照梯度的方向逐步的移動，慢慢的逼近收斂值。用表達式表示爲：
$\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta).$
其中， $\alpha$ 表示一個學習率(詳解見後文)，之所以添加這個學習率，是因爲我們使用的是均方差，如果我們隨機的方程預測的值與實際的值偏差比較大的話，均方差的值將會非常巨大，這樣的話，可能造成我們的這個損失函數出現大幅度的偏移，我們稱之爲擺鐘行爲，所以爲了避免出現這種情況，這個值就這麼的誕生了，這個值的大小，表示每次向着 $J$ 最陡峭的方向邁步的大小，可以用來調整我們移動的的步子大小。還需要解釋的是：
$\frac{\partial}{\partial\theta_j}J(\theta)$
表示的是損失函數的權重梯度，那麼對於這個梯度，簡化爲：
$\begin{aligned} \frac{\partial}{\partial\theta_j}J(\theta)&=\frac{\partial}{\partial\theta_j}\frac{1}{2}(h_\theta(x)-y)^2 \\ &=2*\frac{1}{2}(h_\theta(x)-y)*\frac{\partial}{\partial\theta_j}(h_\theta(x)-y) \\ &= (h_\theta(x)-y)*\frac{\partial}{\partial\theta_j}(\sum_{i=0}^n\theta_ix_i-y) \\ &= (h_\theta(x)-y)x_i \end{aligned}$
得到上面的推導之後，所以可以用 $(h_\theta(x)-y)x_i$ 替換掉 $\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)$ 中的 $\frac{\partial}{\partial\theta_j}J(\theta)$ ，然後得到：
$\theta_j := \theta_j+\alpha(y^{(i)}-h_\theta(x^{i}))x_j^{(i)}.$
方程中的， $i$ 表示的是樣本數據中第 i 組訓練數據， $j$ 其實就是我們的對應的第 j 個權重。僞代碼表示：

"這裏權重用W表示 , trainingSet 表示訓練數據集合 "
for i in range(len(trainingSet)):
    "n 表示有多少個特徵Xj (j屬於[1,n])"
    for j in range(n):
       w -= a*(yi - h(xi))Xij

而這種方式,是將所有的樣本M都參與進去訓練，然後得到一個權重值w。這種方式，我們稱之爲批量梯度下降算法，也就是BGD。
但是這個算法有個缺點，算法時間複雜度爲 $O(n^2)$ ，當樣本量比較大的話，計算量就會變得很大，所以這種方式適用的範圍，僅是對那些樣本較小的數據而言，對於大數據量樣本而言，這個還是不太好的。

8 隨機梯度下降算法(SGD)

它的大體思路就是：在給定的樣本集合M中，隨機取出副本N代替原始樣本M來作爲全集，對模型進行訓練。這種訓練由於是抽取部分數據，所以有較大的機率得到的是，一個局部最優解。但是一個明顯的好處是，如果在樣本抽取合適範圍內，既會求出結果,而且速度還快。

9 梯度下降存在的問題

一：參數調整緩慢
梯度下降算法走到接近極小值的時候，由於谷底很平，梯度很小，參數調整會變得緩慢。
在曲線/曲面的平坦區、或者鞍點，也會有這個問題。
二：收斂於局部極小值
沒有收斂到全局最小值，只收斂到局部最小值。

10 學習率

對於梯度下降算法，這應該是一個最重要的超參數。如果學習速率設置得非常大，那麼訓練可能不會收斂，就直接發散了；如果設置的比較小，雖然可以收斂，但是訓練時間可能無法接受；如果設置的稍微高一些，訓練速度會很快，但是當接近最優點會發生震盪，甚至無法穩定。不同學習速率的選擇影響可能非常大，如圖：

理想的學習速率是：剛開始設置較大，有很快的收斂速度，然後慢慢衰減，保證穩定到達最優點。所以，前面的很多算法都是學習速率自適應的。除此之外，還可以手動實現這樣一個自適應過程，如實現學習速率指數式衰減：
$\eta(t)=\eta_0*10^{\frac{-t}{r}}$
在TensorFlow中，你可以這樣實現：

initial_learning_rate = 0.1
decay_steps = 10000
decay_rate = 1/10
global_step = tf.Variable(0, trainable=False)
learning_rate = tf.train.exponential_decay(initial_learning_rate,                           
                            global_step, decay_steps, decay_rate)
# decayed_learning_rate = learning_rate *
#                decay_rate ^ (global_step / decay_steps)
optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9)
training_op = optimizer.minimize(loss, global_step=global_step)

參考文章

【機器學習】代價函數（cost function）：https://www.cnblogs.com/Belter/p/6653773.html
學習率(Learning rate)的理解以及如何調整學習率：https://www.cnblogs.com/lliuye/p/9471231.html
深入淺出–梯度下降法及其實現：https://www.jianshu.com/p/c7e642877b0e
關於梯度下降算法的的一些總結：https://www.cnblogs.com/gongxijun/p/5890548.html
最清晰的講解各種梯度下降法原理與Dropout：https://baijiahao.baidu.com/s?id=1613121229156499765&wfr=spider&for=pc
一文看懂常用的梯度下降算法：https://blog.csdn.net/u013709270/article/details/78667531

梯度下降算法

1 導數

2 梯度

3 梯度下降的場景假設

4 微分

5 梯度下降實例分析

6 代價函數(Cost Function)

7 批量梯度下降算法(BGD)

8 隨機梯度下降算法(SGD)

9 梯度下降存在的問題

10 學習率

參考文章

c#中 Action 和 =」的用法

基於vscode的vue開發

c#中線程和異步編程

線程間信號處理(八)

git分支管理(三)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結