&&機器學習實戰&&Logistic迴歸

1.概述

假設現在有一些數據點,我們用一條直線對這些點進行擬合,該擬合過程就稱作迴歸。利用Logisti迴歸進行分類的主要思想是:根據現有的數據對分類邊界線建立迴歸公式,以此進行分類。這裏的迴歸一詞源於最佳擬合,表示要找到最佳擬合參數集。

這個二值型輸出分類器的數學原理:

 本章首先闡述logistic迴歸的定義,然後介紹一些最優化算法,其中包括基本的梯度上升法和一個改進的隨機梯度上升法,這些最優化算法將用於分類器的訓練。

優點:計算代價不高,易於理解和實現。

缺點:容易欠擬合,分類精度可能不高。

適用數據類型:數值型和標稱型數據。

海維塞德階越函數和sigmoid函數:

確定了分類器的函數形式之後,現在的問題變成了:最佳迴歸係數是多少?如何確定它們的大小?

2.基於最優化方法的最佳迴歸係數確定

3.梯度上升法

基本思想:要找到某函數的最大值,最好的方法是沿着該函數的梯度方向探尋。

梯度上升算法和梯度下降算法是同一個算法。

 

梯度上升算法僞代碼:

3.隨機梯度上升算法

梯度上升算法在每次更新迴歸係數時都需要遍歷整個數據集,該方法在數據量大時,計算複雜度也太高。一種改進方法是一次僅用一個樣本點來更新迴歸係數,該方法稱爲隨機梯度上升算法。由於可以在新樣本到來時對分類器進行增量式更新,因而隨機梯度上升算法是一個在線學習算法。與在線學習相對應,一次處理所有數據被稱作是批處理。

隨機梯度算法的僞代碼:

5.小結

logistic迴歸的目的是尋找一個非線性函數sigmoid的最佳擬合參數,求解過程可以由最優化算法來完成。在最優化算法中,最常用的就是梯度上升算法,而梯度上升算法又可以簡化爲隨機梯度上升算法。

隨機梯度上升算法在新書據到來時就完成參數更新,而不需要重新讀取整個數據集來進行批處理運算。

機器學習的一個重要問題就是如何處理缺失數據。這個問題沒有標準答案,取決於實際應用中的需求。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章