廣義線性模型的流式學習

原創

2018-08-22 21:41

廣義線性模型的流式學習

1. 廣義線性模型的組成

在這篇博客中，我們將介紹機器學習中最常用的一大類模型：廣義線性模型。廣義線性模型包含線性模型、邏輯斯特迴歸、嶺迴歸、Lasso等。這幾種模型在spark中均有實現，然而，還未有基於spark streaming的流式算法。

2. 本文符號

假設我們有n個數據，分別爲，每個數據的維度爲k，在廣義線性模型中，我們將這n個數據集中到一個矩陣中，其中A的每一行爲一個數據。每個數據對應的標籤爲，注意每個標籤是一個(0,1)的數，我們把這n個數集合到一個向量中。另外，我們假設廣義線性模型中需要學習的參數爲x，由於是線性模型，因此x的維度也是n。

3. 線性模型

在線性模型中，我們假設，其中是一個服從高斯分佈的誤差項。根據最大似然概率準則，我們需要通過優化以下問題來得到x

這也是一個線性最小二乘問題。由於這是一個L2的優化問題，因此可以通過梯度下降來求解。上述目標優化問題關於參數$x$的梯度爲

梯度下降的更新步驟爲

4. 邏輯斯特迴歸

邏輯斯特迴歸我們已經在之前的博客上詳細介紹，請戳。

5. 嶺迴歸

嶺迴歸也是一種線性模型，它的模型爲

其中n是數據的個數，是正則項的權重，L是一個矩陣，通常取爲單位陣I。之所以在第一項前面乘以1/n，是爲了保證不需要隨着數據量而改變。嶺迴歸對x加入了一個正則項，要求其能量儘量小。對嶺迴歸的目標優化函數求梯度，就可以使用梯度下降法來求解。其梯度爲

6. Lasso模型

Lasso是一個L1正則化的問題，相對於一般的L2正則化問題，Lasso可以得到稀疏的解，在機器學習中能得到比L2正則化更好的結果。Lasso問題的形式是：

在機器學習中，$x$是我們要學習的模型參數，前一項是對訓練數據的擬合，後一項是對模型參數的正則化（regularization）。

Lasso問題是一個凸問題，可以求得全局最優解。但是在x=0時是不可導的，所以它沒有梯度，只有次梯度，因此不能直接使用梯度下降法來最優化。

Huber Function

爲了解決上述問題，我們可以使用Huber Function對在x=0處進行平滑，也就是用如下的Huber Function來代替.

畫出Huber Function 可以看到

可以看到其在處是平滑的,並且它可以看做是函數的近似。

現在Lasso問題可以近似爲：

要用梯度下降法解決上述問題，需要對求導，Huber Function是一個分段函數，它的導數爲

其中sign(x)函數是對x取符號運算。現在我們可以得到近似後的Lasso問題的目標優化函數的梯度爲

將上述的廣義線性模型使用我們在之前的博客中提到的方法進行流式學習，即可得到這些廣義線性模型基於spark streaming的流行機器學習。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在線的PCA算法

1、離線PCA PCA是一種最基本的降維算法，在機器學習中被廣泛使用。它是一種線性降維，其基本思想是：對大量的數據，找到其主成分，主成分的個數小於原始數據的維度，然後將原始數據投影到主成分張成的空間中，可減小數據的維度。

2020-07-07 15:50:47

PyQt4在TextEdit控件中創建右鍵菜單

今天開發界面遇到一個問題，想將textedit的顯示內容及時清空，但是由於系統自帶的菜單沒有清空功能，就需要自己添加該部分內容。查了很多資料：大致分爲兩種方法： 1.一種是修改父窗口Widget的menu方法，添加整體的右鍵菜單，然後

2020-06-21 09:27:18

中期工作總結和下期計劃

經過8月8號和騰訊導師的交流，導師站在用戶和解決實際問題的角度指出了軟件應該包含的功能，而個人所做的更像是一個理想化的軟件，試圖包含任何情況，卻忽略了用戶關心的問題，以及忽略了實際問題的複雜性。對於中期之前完成的部分，具備了檢查網絡狀況

2020-06-21 09:27:18

項目階段總結20140824

過去的一週主要是設計網絡探測工具的界面，採用了的pyQt4+python2.7+eric開發；在有python代碼結合Qt界面開發時主要遇到的問題有： 1.python的str轉化爲Qt的QString類型，對於搜索的時候方法有區別：

2020-06-21 03:27:12

PyQT實現菜單中的複製，全選和清空的功能

PyQt的文本操作的繼承關係： QTextBrowser ( QtGui.QTextEdit) 其中QTextEdit具有的功能函數： copy() 複製 selectAll（）全選 clear() 清空雖然通過光標選

2020-06-21 02:03:52

CSDN開源夏令營基於Compiz的switcher插件設計與實現之編譯compiz源碼

在開始介紹之前先吐個嘈：上週我們暑期ACM集訓開始了，平均下來基本上是一天一賽，有時還不止，又是多校聯賽，又是CodeForces，又是TopCoder，又是BestCoder,又是AcDream，還有學校自己組織的個人賽，

2020-06-20 12:40:32

（八）寫文檔的一些感想

代碼的工作完成以後感覺博客要寫什麼實在不好把握，最近都在寫文檔，那麼我就說說寫文檔的一些感受吧。在學校也要寫文檔，不過一般都是以報告的形式，這次的文檔主要是介紹如何將OData插件整合到SugarCRM中，所以偏向於指導性的文檔。自己在

2020-06-16 03:38:44

三、odataproducer代碼改寫

這兩週導師一直在美國，所以聯繫起來很不方便，加上現有的資料很少，所以只能自己摸索，上週確定了思路，導師也說思路是正確的，那麼這周就要對代碼進行改寫。要改寫的代碼包括IDataServiceMetaDataProvider，IDataSe

2020-06-16 03:38:44

四、配置與調試

昨天導師從美國回來，經過陳工導師和王工的悉心指導，終於完成了配置，可以在瀏覽器中訪問。首先在service.config裏添加svc配置 <service name="SugarCRM2.svc"> <path

2020-06-16 03:38:44

七、文檔撰寫與更多環境測試

本次項目的開發工作在上上週基本已經完成，這兩週主要是進行進一步完善和對文檔撰寫在文檔編寫過程中遇到一個問題就是之前所用環境爲Windows下的Apache+Mysql+PHP，爲了完善文檔，本週在linux環境下進行測試首先搭建lin

2020-06-16 03:38:43

運行YateBTS的MBTS服務解決OpenBTStransceiver問題

建立YateBTS服務原因 YateBTS中提供了對BladeRF的完整支持， transceiverRAD1文件夾中有爲BladeRF寫的程序。 YateBTS與OpenBTS一樣是GSM網絡的模擬協議棧的軟件，所不同的是OpenBT

2020-06-15 20:44:17

開源夏令營（2）

Bootstrap3中默認定義頁面爲12個邏輯列，我們需要通過定義元素佔據的列的數量來定義頁面佈局效果所有佈局列定義必須放入.row定義元素，並且.row定義元素必須定義到.container或者.container-fluid元素

2020-06-11 07:01:28

CSDN開源夏令營總結

從當初報名參加CSDN開源夏令營到現在接近尾聲，中間自己經歷了很多關於項目的事情，首先感謝騰訊導師的指導和幫助，尤其是老師的一些觀點，擴展了我對軟件開發的認識，也逐漸意識到做一個好軟件需要考慮的方方面面；其次感謝CSDN

2020-06-07 06:45:13

解決QT4中中文顯示亂碼問題

在使用str 以及QtString的時候，會有中文顯示亂碼的問題；嘗試了很多種方法，最終的解決方案時，修改默認的編碼格式：使用： import reload(sys) sys.setdefaultencoding('utf8')

2020-06-07 06:45:13

pyinstaller跨平臺python編譯問題總結

對於pyinstaller，可以完成在windows,linux,和mac下的python腳本編譯，生成exe,elf,.app文件； 1.使用方法；在pyinstaller的官網上下載，一般是源碼包，可以解壓縮之後直接使用： pyth

2020-06-07 06:45:13

24小時熱門文章

最新文章

最新評論文章