【統計學習方法】邏輯斯諦迴歸(Logistic Regression) Python實現

今天看了一下《統計學習方法》裏的邏輯斯諦迴歸，結合下《機器學習實戰》裏面的代碼，很精煉。公式如下：
模型：

$P (Y = 1 | x) = \frac{e x p (w \cdot x + b)}{1 + e x p (w \cdot x + b)}$
$P (Y = 0 | x) = 1 - P (Y = 1 | x) = \frac{1}{1 + e x p (w \cdot x + b)}$

策略：對數損失函數
算法：梯度下降算法
首先需要加載數據，加載數據的函數。

def loadDataSet(self, fileName = 'testSet.txt'):   #加載數據
        dataMat = []
        labelMat = []
        fr = open(fileName)
        for line in fr.readlines(): #遍歷文件
            lineArr = line.strip().split()
            dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) #數據集
            labelMat.append(int(lineArr[-1]))   #類別標籤
        return dataMat, labelMat

其中dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])這句代碼使將輸入向量做了一個擴充，將1放在輸入向量的末尾，變成 $x = (1, x^{(1)}, x^{(2)}, x^{(3)} \dots, x^{(n)})$ ，然後將權值向量寫成 $w = (b, w^{(1)}, w^{(2)}, w^{(3)} \dots, w^{(n)})$ ，這樣可以方便計算。
接下來看sigmoid函數，它的值域是[0, 1]。對應的就是剛纔上面的第一個公式。如果寫成擴充向量的形式的話，就是 $P (Y = 1 | x) = \frac{e x p (w \cdot x)}{1 + e x p (w \cdot x)}$ 這個公式了（要同除以 $e x p (w \cdot x)$ ）。

def sigmoid(self, inX):
        return 1.0 / (1 + np.exp(-inX))

最後就是我們的訓練的函數了。

def train(self, dataSet, labels):   #訓練
        dataMat = np.mat(dataSet)   #將數據集轉成矩陣的形式
        labelMat = np.mat(labels).transpose()#將類別集合轉成矩陣的形式
        m, n = np.shape(dataSet)    #行列
        alpha = 0.01
        maxIter = 500
        weights = np.ones((n, 1))
        for i in range(maxIter):    #迭代
            h = self.sigmoid(dataMat * weights)
            error = h - labelMat    #預測值和標籤值所形成的誤差
            weights = weights -  alpha * dataMat.transpose() * error    #權重的更新
        return weights

這裏使用了梯度下降算法來進行訓練，根據以下公式。
$\nabla_{w} L (w) = X^{T} (h - y)$
對應下面的代碼。

error = h - labelMat    #預測值和標籤值所形成的誤差
            weights = weights -  alpha * dataMat.transpose() * error    #權重的更新

最後我們運行一下。

    logistic = Logistic()
    dataSet, labels = logistic.loadDataSet()
    weights = logistic.gradDescent(dataSet, labels)
    print weights

下面我貼出所有代碼。

# --*-- coding:utf-8 --*--
import numpy as np

class Logistic:
    def loadDataSet(self, fileName = 'testSet.txt'):   #加載數據
        dataMat = []
        labelMat = []
        fr = open(fileName)
        for line in fr.readlines(): #遍歷文件
            lineArr = line.strip().split()
            dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) #數據集
            labelMat.append(int(lineArr[-1]))   #類別標籤
        return dataMat, labelMat

    def sigmoid(self, inX):
        return 1.0 / (1 + np.exp(-inX))

    def train(self, dataSet, labels):   #訓練
        dataMat = np.mat(dataSet)   #將數據集轉成矩陣的形式
        labelMat = np.mat(labels).transpose()#將類別集合轉成矩陣的形式
        m, n = np.shape(dataSet)    #行列
        alpha = 0.01
        maxIter = 500
        weights = np.ones((n, 1))
        for i in range(maxIter):    #迭代
            h = self.sigmoid(dataMat * weights)
            error = h - labelMat    #預測值和標籤值所形成的誤差
            weights = weights -  alpha * dataMat.transpose() * error    #權重的更新
        return weights

if __name__ == '__main__':
    logistic = Logistic()
    dataSet, labels = logistic.loadDataSet()
    weights = logistic.train(dataSet, labels)
    print weights

以及訓練樣本testSet.txt。

-0.017612   14.053064   0
-1.395634   4.662541    1
-0.752157   6.538620    0
-1.322371   7.152853    0
0.423363    11.054677   0
0.406704    7.067335    1
0.667394    12.741452   0
-2.460150   6.866805    1
0.569411    9.548755    0
-0.026632   10.427743   0
0.850433    6.920334    1
1.347183    13.175500   0
1.176813    3.167020    1
-1.781871   9.097953    0
-0.566606   5.749003    1
0.931635    1.589505    1
-0.024205   6.151823    1
-0.036453   2.690988    1
-0.196949   0.444165    1
1.014459    5.754399    1
1.985298    3.230619    1
-1.693453   -0.557540   1
-0.576525   11.778922   0
-0.346811   -1.678730   1
-2.124484   2.672471    1
1.217916    9.597015    0
-0.733928   9.098687    0
-3.642001   -1.618087   1
0.315985    3.523953    1
1.416614    9.619232    0
-0.386323   3.989286    1
0.556921    8.294984    1
1.224863    11.587360   0
-1.347803   -2.406051   1
1.196604    4.951851    1
0.275221    9.543647    0
0.470575    9.332488    0
-1.889567   9.542662    0
-1.527893   12.150579   0
-1.185247   11.309318   0
-0.445678   3.297303    1
1.042222    6.105155    1
-0.618787   10.320986   0
1.152083    0.548467    1
0.828534    2.676045    1
-1.237728   10.549033   0
-0.683565   -2.166125   1
0.229456    5.921938    1
-0.959885   11.555336   0
0.492911    10.993324   0
0.184992    8.721488    0
-0.355715   10.325976   0
-0.397822   8.058397    0
0.824839    13.730343   0
1.507278    5.027866    1
0.099671    6.835839    1
-0.344008   10.717485   0
1.785928    7.718645    1
-0.918801   11.560217   0
-0.364009   4.747300    1
-0.841722   4.119083    1
0.490426    1.960539    1
-0.007194   9.075792    0
0.356107    12.447863   0
0.342578    12.281162   0
-0.810823   -1.466018   1
2.530777    6.476801    1
1.296683    11.607559   0
0.475487    12.040035   0
-0.783277   11.009725   0
0.074798    11.023650   0
-1.337472   0.468339    1
-0.102781   13.763651   0
-0.147324   2.874846    1
0.518389    9.887035    0
1.015399    7.571882    0
-1.658086   -0.027255   1
1.319944    2.171228    1
2.056216    5.019981    1
-0.851633   4.375691    1
-1.510047   6.061992    0
-1.076637   -3.181888   1
1.821096    10.283990   0
3.010150    8.401766    1
-1.099458   1.688274    1
-0.834872   -1.733869   1
-0.846637   3.849075    1
1.400102    12.628781   0
1.752842    5.468166    1
0.078557    0.059736    1
0.089392    -0.715300   1
1.825662    12.693808   0
0.197445    9.744638    0
0.126117    0.922311    1
-0.679797   1.220530    1
0.677983    2.556666    1
0.761349    10.693862   0
-2.168791   0.143632    1
1.388610    9.341997    0
0.317029    14.739025   0

【統計學習方法】邏輯斯諦迴歸(Logistic Regression) Python實現

【Python】問題小記錄

【自然語言處理】tf.contrib.seq2seq.dynamic_decode源碼分析

[數據結構]單鏈表C語言的簡單實現

[數據結構]圖鄰接矩陣C語言簡單實現

[數據結構]棧的C語言簡單實現

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【統計學習方法】 邏輯斯諦迴歸(Logistic Regression) Python實現

【統計學習方法】邏輯斯諦迴歸(Logistic Regression) Python實現