1.概述
假設現在有一些數據點,我們用一條直線對這些點進行擬合,該擬合過程就稱作迴歸。利用Logisti迴歸進行分類的主要思想是:根據現有的數據對分類邊界線建立迴歸公式,以此進行分類。這裏的迴歸一詞源於最佳擬合,表示要找到最佳擬合參數集。
這個二值型輸出分類器的數學原理:
本章首先闡述logistic迴歸的定義,然後介紹一些最優化算法,其中包括基本的梯度上升法和一個改進的隨機梯度上升法,這些最優化算法將用於分類器的訓練。
優點:計算代價不高,易於理解和實現。
缺點:容易欠擬合,分類精度可能不高。
適用數據類型:數值型和標稱型數據。
海維塞德階越函數和sigmoid函數:
確定了分類器的函數形式之後,現在的問題變成了:最佳迴歸係數是多少?如何確定它們的大小?
2.基於最優化方法的最佳迴歸係數確定
3.梯度上升法
基本思想:要找到某函數的最大值,最好的方法是沿着該函數的梯度方向探尋。
梯度上升算法和梯度下降算法是同一個算法。
梯度上升算法僞代碼:
3.隨機梯度上升算法
梯度上升算法在每次更新迴歸係數時都需要遍歷整個數據集,該方法在數據量大時,計算複雜度也太高。一種改進方法是一次僅用一個樣本點來更新迴歸係數,該方法稱爲隨機梯度上升算法。由於可以在新樣本到來時對分類器進行增量式更新,因而隨機梯度上升算法是一個在線學習算法。與在線學習相對應,一次處理所有數據被稱作是批處理。
隨機梯度算法的僞代碼:
5.小結
logistic迴歸的目的是尋找一個非線性函數sigmoid的最佳擬合參數,求解過程可以由最優化算法來完成。在最優化算法中,最常用的就是梯度上升算法,而梯度上升算法又可以簡化爲隨機梯度上升算法。
隨機梯度上升算法在新書據到來時就完成參數更新,而不需要重新讀取整個數據集來進行批處理運算。
機器學習的一個重要問題就是如何處理缺失數據。這個問題沒有標準答案,取決於實際應用中的需求。