神經網絡和深度學習-第二週神經網絡基礎-第四節:梯度下降法 原 薦

本系列博客是吳恩達(Andrew Ng)深度學習工程師 課程筆記。全部課程請查看吳恩達(Andrew Ng)深度學習工程師課程目錄

在上一節中學習了損失函數,損失函數是衡量單一訓練樣例的效果,成本函數用於衡量參數w和b的效果,在全部訓練集上來衡量。下面我們討論如何使用梯度下降法,來訓練和學習訓練集上的參數w和b,使得$J(w,b)$儘可能地小。

這個圖中的橫軸表示空間參數w和b,在實踐中,w可以是更高維的。成本函數$J(w,b)$是在水平軸w和b上的曲面,曲面的高度表示了$J(w,b)$在某一點的值,我們所想要做的就是找到這樣的w和b,使其對應的成本函數J值是最小值。可以看到成本函數$J$是一個凸函數,因此我們的成本函數$J(w,b)$之所以是凸函數,其性質是我們使用logistic迴歸的個特定成本函數$J$的重要原因之一。爲了找到更好的參數值,我們要做的就是用某初始值初始化w和b,用圖上最上面的小紅點表示。

對於logistic迴歸而言幾乎任意初始化方法都有效,通用用0來進行初始化,但對於logistic迴歸,我們通常不這麼做。因爲函數是凸的無論在哪裏初始化,都應到達同一點或大致相同的點。梯度下降法所做的就是從初始點開始朝最陡的下坡方向走,就像圖裏一樣沿着紅點一直走,直到到達或接近全局最優解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章