基於python的在線學習logistic迴歸

原創

2018-08-22 21:41

在和導師第一次交流後，導師建議我們先從機器學習中最簡單的logistic迴歸開始入手，並學習流式的機器學習算法再將其應用於spark平臺上，本文先分析logistic迴歸的理論依據，再借鑑《機器學習實戰》一書中基於python的logistic迴歸進行介紹，爲將算法移植到spark平臺上做好準備。

一、梯度下降法logistic迴歸的理論分析

Logistic迴歸用來解決二值分類問題。訓練數據爲(x_1, y_1), (x_2,y_2)……(x_n, y_n)等n個數據對。x_i代表訓練數據的特徵，爲一個向量；y_i代表訓練數據的標籤，我們假設正樣本和負樣本的標籤爲{-1,1}。

Logistic回歸屬於廣義線性模型，對線性模型來說，訓練算法訓練的是一個與測試樣本x_j同等維度的權重w，通過計算w*x_j(w*代表w的轉置)來得到樣本x_j的“score”，然後對score進行分析，得到算法的輸出。

在Logistic迴歸中，對某個測試樣本x_j來說，算法的輸出是此樣本屬於正樣本（或負樣本）的概率，當然，這個概率是屬於[0,1]的。這個概率是和剛纔說到的score緊密相關的，這個關係就是如下的Logistic函數。

如果我們把w*x看做自變量s，它的曲線如下所示：

h(x)或θ(x)表示樣本x屬於正樣本的概率，上述曲線的意思是，當score，即w*x爲正數，則樣本屬於正樣本的概率大於1/2，即更有可能是正樣本，反之更有可能是負樣本。並且w*x爲一個更大的正數的話，其屬於正樣本的概率更大，w*x爲一個更小的負數的話，其屬於負樣本的概率更大。

在學習的過程中，對於y_i = 1的訓練數據，我們希望h(x_i)越大越好，此時h(x_i)=h(y_i*x_i)，因爲y_i此時等於1；對y_i = -1的訓練數據，我們希望h(x_i)越小越好，由於函數h(x)是反向對稱的，我們也可以說希望h(-x_i)越大越好，此時也有h(-x_i) =h(y_i*x_i)。因此，對n個訓練樣本，我們希望

我們對優化的目標函數取一個-log()，則最大化問題可以變成最小化問題，連乘可以變成連加。問題變成

我們可以使用梯度下降法來求解這個問題，首先需要計算目標函數E關於w的梯度。注意這是一個n項加和的目標函數，我們可以分別對每一項求關於w的梯度，然後對n個梯度加和。容易得到，梯度等於：

梯度下降法使用如下迭代：

其中η是一個預設的步長。通過數次迭代，我們可以求得一個比較好的w。

二、隨機梯度下降法的logistic迴歸

注意到在上面的Logistic迴歸算法當中，計算梯度時我們用到了所有n個訓練數據，在大規模機器學習問題中，訓練數據量非常大，或者訓練數據是以流的形式到達，我們不能將所有的訓練數據同時進行計算，此時，我們需要使用隨機梯度下降法來解決這個問題。

隨機梯度下降法思想十分簡單：在每次計算梯度時，我們只使用1個數據點來計算，然後用這個梯度來更新w。我們可以把隨機梯度下降法總結如下：

初始化訓練參數w

對訓練集中每一個樣本

計算此樣本的梯度

用此樣本的梯度更新參數w

得到w

三、基於python的logistic迴歸

在《機器學習實戰》書中給出了一個具體的例子，首先利用基本的梯度上升（與梯度下降法效果一樣，符號不一樣而已）法，再利用改進的隨機梯度上升法進行分類器的訓練，下面給出算法執行過程。

在前面理論推導的基礎上，在logRegres.py中輸入如下代碼

程序讀取的數據集截圖如下圖所示

我用的是pythonxy程序自帶的IDLE運行環境

在IDLE環境中切換到logRegres.py所在的目錄

然後運行下圖所示的程序，可以得到運行梯度下降法的logistic迴歸後的權重w。

然後再畫出決策邊界。（通過plotBestFit函數，由於這個函數略長，且重要性不大，因此略去）

從圖中可以看出，綠色的爲一類，紅色的爲一類，劃分的分類線只分錯了4個點。

下面對隨機梯度上升法的執行情況做一個簡要介紹

重新寫一個stocGradAscent0函數，如下圖，每一次對一個數據進行梯度下降，而不是像前面的根據所有的數據進行梯度下降，

重新畫分類線的圖，得到下圖

我們看到效果並不是特別好，分類錯了很多樣本。但其實與前面相比，這次的代碼只是對數據集進行了一遍學習並沒有進行多次學習。

下面我們用改進的隨機梯度上升法，進行訓練，看看效果。改進的梯度學習算法主要在學習速率上做了一定的改進，隨着學習次數增多，學習速率不斷降低，但是永遠不會下降爲0.

我們看到了代碼中寫明瞭對整個數據集反覆學習150次。

得到的結果如下圖所示。

我們可以看到效果還是挺不錯的，並且計算量少了很多，而且還可以流式學習。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在線的PCA算法

1、離線PCA PCA是一種最基本的降維算法，在機器學習中被廣泛使用。它是一種線性降維，其基本思想是：對大量的數據，找到其主成分，主成分的個數小於原始數據的維度，然後將原始數據投影到主成分張成的空間中，可減小數據的維度。

2020-07-07 15:50:47

PyQt4在TextEdit控件中創建右鍵菜單

今天開發界面遇到一個問題，想將textedit的顯示內容及時清空，但是由於系統自帶的菜單沒有清空功能，就需要自己添加該部分內容。查了很多資料：大致分爲兩種方法： 1.一種是修改父窗口Widget的menu方法，添加整體的右鍵菜單，然後

2020-06-21 09:27:18

中期工作總結和下期計劃

經過8月8號和騰訊導師的交流，導師站在用戶和解決實際問題的角度指出了軟件應該包含的功能，而個人所做的更像是一個理想化的軟件，試圖包含任何情況，卻忽略了用戶關心的問題，以及忽略了實際問題的複雜性。對於中期之前完成的部分，具備了檢查網絡狀況

2020-06-21 09:27:18

項目階段總結20140824

過去的一週主要是設計網絡探測工具的界面，採用了的pyQt4+python2.7+eric開發；在有python代碼結合Qt界面開發時主要遇到的問題有： 1.python的str轉化爲Qt的QString類型，對於搜索的時候方法有區別：

2020-06-21 03:27:12

PyQT實現菜單中的複製，全選和清空的功能

PyQt的文本操作的繼承關係： QTextBrowser ( QtGui.QTextEdit) 其中QTextEdit具有的功能函數： copy() 複製 selectAll（）全選 clear() 清空雖然通過光標選

2020-06-21 02:03:52

CSDN開源夏令營基於Compiz的switcher插件設計與實現之編譯compiz源碼

在開始介紹之前先吐個嘈：上週我們暑期ACM集訓開始了，平均下來基本上是一天一賽，有時還不止，又是多校聯賽，又是CodeForces，又是TopCoder，又是BestCoder,又是AcDream，還有學校自己組織的個人賽，

2020-06-20 12:40:32

（八）寫文檔的一些感想

代碼的工作完成以後感覺博客要寫什麼實在不好把握，最近都在寫文檔，那麼我就說說寫文檔的一些感受吧。在學校也要寫文檔，不過一般都是以報告的形式，這次的文檔主要是介紹如何將OData插件整合到SugarCRM中，所以偏向於指導性的文檔。自己在

2020-06-16 03:38:44

三、odataproducer代碼改寫

這兩週導師一直在美國，所以聯繫起來很不方便，加上現有的資料很少，所以只能自己摸索，上週確定了思路，導師也說思路是正確的，那麼這周就要對代碼進行改寫。要改寫的代碼包括IDataServiceMetaDataProvider，IDataSe

2020-06-16 03:38:44

四、配置與調試

昨天導師從美國回來，經過陳工導師和王工的悉心指導，終於完成了配置，可以在瀏覽器中訪問。首先在service.config裏添加svc配置 <service name="SugarCRM2.svc"> <path

2020-06-16 03:38:44

七、文檔撰寫與更多環境測試

本次項目的開發工作在上上週基本已經完成，這兩週主要是進行進一步完善和對文檔撰寫在文檔編寫過程中遇到一個問題就是之前所用環境爲Windows下的Apache+Mysql+PHP，爲了完善文檔，本週在linux環境下進行測試首先搭建lin

2020-06-16 03:38:43

運行YateBTS的MBTS服務解決OpenBTStransceiver問題

建立YateBTS服務原因 YateBTS中提供了對BladeRF的完整支持， transceiverRAD1文件夾中有爲BladeRF寫的程序。 YateBTS與OpenBTS一樣是GSM網絡的模擬協議棧的軟件，所不同的是OpenBT

2020-06-15 20:44:17

開源夏令營（2）

Bootstrap3中默認定義頁面爲12個邏輯列，我們需要通過定義元素佔據的列的數量來定義頁面佈局效果所有佈局列定義必須放入.row定義元素，並且.row定義元素必須定義到.container或者.container-fluid元素

2020-06-11 07:01:28

CSDN開源夏令營總結

從當初報名參加CSDN開源夏令營到現在接近尾聲，中間自己經歷了很多關於項目的事情，首先感謝騰訊導師的指導和幫助，尤其是老師的一些觀點，擴展了我對軟件開發的認識，也逐漸意識到做一個好軟件需要考慮的方方面面；其次感謝CSDN

2020-06-07 06:45:13

解決QT4中中文顯示亂碼問題

在使用str 以及QtString的時候，會有中文顯示亂碼的問題；嘗試了很多種方法，最終的解決方案時，修改默認的編碼格式：使用： import reload(sys) sys.setdefaultencoding('utf8')

2020-06-07 06:45:13

pyinstaller跨平臺python編譯問題總結

對於pyinstaller，可以完成在windows,linux,和mac下的python腳本編譯，生成exe,elf,.app文件； 1.使用方法；在pyinstaller的官網上下載，一般是源碼包，可以解壓縮之後直接使用： pyth

2020-06-07 06:45:13

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章