邏輯迴歸分類器(Logistic Regression Classifier)

Logistic regression (邏輯迴歸)是當前業界比較常用的機器學習方法,用於估計某種事物的可能性,也用來進行分類。

在分類的情形下,經過學習之後的LR分類器其實就是一組權值w0,w1,...,wm. 
輸入測試樣本集中的測試數據時,這一組權值按照與測試數據線性加和的方式,求出一個z值:

z = w0+w1*x1+w2*x2+...+wm*xm。 ① (其中x1,x2,...,xm是某樣本數據的各個特徵,維度爲m
之後按照sigmoid函數的形式求出:

σ(z) = 1 / (1+exp(z)) 。②

由於sigmoid函數的定義域是(-INF, +INF),而值域爲(0, 1)。因此最基本的LR分類器適合於對兩類目標進行分類。該sigmoid函數看成樣本數據的概率密度函數,每一個樣本點,都可以通過上述的公式①和②計算出其概率密度

LR分類器的關鍵問題就是求出這一組權值w0,w1,...,wm。這需要涉及到極大似然估計MLE和優化算法的概念。

一、邏輯迴歸模型

何爲迴歸:迴歸其實就是對已知公式的未知參數進行估計。比如已知公式是y = a*x + b,未知參數是ab。我們現在有很多真實的(x,y)數據(訓練樣本),迴歸就是利用這些數據對ab的取值去自動估計。 

其實Logistic Regression 就是一個被logistic方程歸一化後的線性迴歸,僅此而已。至於用logistic方程而不用其它,是因爲這種歸一化的方法往往比較合理,能夠打壓過大和過小的結果(往往是噪音),以保證主流的結果不至於被忽視。

1.1邏輯迴歸模型



1.2極大似然函數



1.3 牛頓-拉斐森迭代法


注:邏輯迴歸分類器的Spark代碼實現參照博客:Spark簡介第六章代碼部分:http://blog.csdn.net/qustqustjay/article/details/46874071

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章