梯度下降、牛頓法、擬牛頓法

原創

雪伦_

2020-02-20 13:14

介紹

在向量微積分中，標量場的梯度是一個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的長度是這個最大的變化率。更嚴格的說，從歐幾里得空間Rn到R的函數的梯度是在Rn某一點最佳的線性近似。

在判別式模型中，我們往往需要學習參數，從而使得我們的模型f(x)可以逼近實際的y。如果學習參數，則通常會用到梯度下降、牛頓、擬牛頓學習算法。

參考自網絡資源

1.梯度下降

1.1 爲何使用梯度作爲下降方向？

梯度實際上是函數值變化最快的方向。

比如說，你站在一個山上，梯度所指示的方向是高度變化最快的方向。你沿着這個方向走，能最快的改變（增加或是減小）你所在位置的高度，但是如果你亂走，可能走半天所在位置高度也沒有變化多少。也就是說，如果你一直沿着梯度走，你就能最快的到達山的某個頂峯或低谷（偶爾會到鞍點，不過這幾乎不可能）。

所以實際上，梯度下降法是用來數值搜索局部極小值或極大值的，它是實際應用中一種非常高效，高速且可靠的方法。

1.2 以邏輯斯蒂迴歸（LR）爲例

模型參數估計
梯度下降學習參數
最終模型

1.3 具體學習過程(python代碼示例)

梯度下降是最小化風險函數、損失函數的一種常用方法，隨機梯度下降和批量梯度下降是兩種迭代求解思路。

根據batch_size的不同，可以有大概一下幾種形式。

（1）梯度下降僞代碼

每個迴歸參數初始化爲1
重複R次
- 計算整個數據集的梯度
- 使用alpha × gradient更新迴歸係數的向量
- 返回迴歸係數

示例代碼：

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
    labelMat = mat(classLabels).transpose() #convert to NumPy matrix
    m,n = shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    weights = ones((n,1))
    for k in range(maxCycles):              #heavy on matrix operations
        h = sigmoid(dataMatrix*weights)     #matrix mult
        error = (labelMat - h)              #vector subtraction
        weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
    return weights

（2）隨機梯度下降僞代碼：

每個迴歸參數初始化爲1
重複R次
- 計算每個樣本的梯度
- 使用alpha × gradient更新迴歸係數的向量
- 返回迴歸係數

示例代碼：

細心的讀者可以看到，其中alpha是變化的，這樣可以在一定程度上避免局部最優解。

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)   #initialize to all ones
    for j in range(numIter):
        dataIndex = range(m)
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.0001    #apha decreases with iteration, does not 
            randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights