邏輯迴歸分類器(Logistic Regression Classifier)

原創

2018-09-03 22:08

Logistic regression （邏輯迴歸）是當前業界比較常用的機器學習方法，用於估計某種事物的可能性，也用來進行分類。

在分類的情形下，經過學習之後的LR分類器其實就是一組權值w0,w1,...,wm.
當輸入測試樣本集中的測試數據時，這一組權值按照與測試數據線性加和的方式，求出一個z值：

z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某樣本數據的各個特徵，維度爲m）
之後按照sigmoid函數的形式求出：

σ(z) = 1 / (1+exp(z)) 。②

由於sigmoid函數的定義域是(-INF, +INF),而值域爲(0, 1)。因此最基本的LR分類器適合於對兩類目標進行分類。該sigmoid函數看成樣本數據的概率密度函數，每一個樣本點，都可以通過上述的公式①和②計算出其概率密度。

則LR分類器的關鍵問題就是求出這一組權值w0,w1,...,wm。這需要涉及到極大似然估計MLE和優化算法的概念。

一、邏輯迴歸模型

何爲迴歸：迴歸其實就是對已知公式的未知參數進行估計。比如已知公式是y = a*x + b，未知參數是a和b。我們現在有很多真實的(x,y)數據（訓練樣本），迴歸就是利用這些數據對a和b的取值去自動估計。

其實Logistic Regression 就是一個被logistic方程歸一化後的線性迴歸，僅此而已。至於用logistic方程而不用其它，是因爲這種歸一化的方法往往比較合理，能夠打壓過大和過小的結果（往往是噪音），以保證主流的結果不至於被忽視。

1.1邏輯迴歸模型

注：邏輯迴歸分類器的Spark代碼實現參照博客：Spark簡介第六章代碼部分：http://blog.csdn.net/qustqustjay/article/details/46874071

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.