Logistic regression (邏輯迴歸)是當前業界比較常用的機器學習方法,用於估計某種事物的可能性,也用來進行分類。
在分類的情形下,經過學習之後的LR分類器其實就是一組權值w0,w1,...,wm.
當輸入測試樣本集中的測試數據時,這一組權值按照與測試數據線性加和的方式,求出一個z值:
z = w0+w1*x1+w2*x2+...+wm*xm。 ① (其中x1,x2,...,xm是某樣本數據的各個特徵,維度爲m)
之後按照sigmoid函數的形式求出:
σ(z) = 1 / (1+exp(z)) 。②
由於sigmoid函數的定義域是(-INF, +INF),而值域爲(0, 1)。因此最基本的LR分類器適合於對兩類目標進行分類。該sigmoid函數看成樣本數據的概率密度函數,每一個樣本點,都可以通過上述的公式①和②計算出其概率密度。
則LR分類器的關鍵問題就是求出這一組權值w0,w1,...,wm。這需要涉及到極大似然估計MLE和優化算法的概念。
一、邏輯迴歸模型
何爲迴歸:迴歸其實就是對已知公式的未知參數進行估計。比如已知公式是y = a*x + b,未知參數是a和b。我們現在有很多真實的(x,y)數據(訓練樣本),迴歸就是利用這些數據對a和b的取值去自動估計。
其實Logistic Regression 就是一個被logistic方程歸一化後的線性迴歸,僅此而已。至於用logistic方程而不用其它,是因爲這種歸一化的方法往往比較合理,能夠打壓過大和過小的結果(往往是噪音),以保證主流的結果不至於被忽視。