前言
上期文章:「07」迴歸的誘惑:深入淺出邏輯迴歸 中 , 我們介紹了邏輯迴歸的原理,組成和優缺點,並探討了分類的本質含義。在這一期,我們會繼續07的部分,從邏輯迴歸開始,引出機器學習中最重要的概念——參數學習。
還記得我們的線性迴歸是如何學習直線方程參數的嗎?
- 最小二乘法(多元情況下叫做正規方程)
- 梯度下降法
關於梯度下降,在之後的優化方法綜述中會詳細講述,這裏我們聚焦參數學習的本質——損失函數最小化。之前我們只是用到了梯度下降法來進行損失函數的最小化(求最小的值),但是卻沒有解釋爲什麼求最小值就可以得到問題的解。這裏我們詳細的展開講一講損失函數,以及邏輯迴歸中的極大似然估計。
什麼是損失函數
損失函數(Loss Function),是用來評價模型的預測值和真實值不一樣的程度,損失函數越好,通常意味着模型的性能越好。不同的模型用的損失函數一般也不一樣。損失函數分爲經驗風險損失函數和結構風險損失函數。經驗風險損失函數指預測結果和實際結果的差別,結構風險損失函數是指經驗風險損失函數加上正則項。更深入的定義和解釋,大家可以參考李航老師的《統計學習方法》,這裏我們先講講它的作用。
從學習任務的類型出發,可以從廣義上將損失函數分爲兩大類——迴歸損失和分