邏輯迴歸是線性的二分類模型。
𝑓(x)稱爲Sigmoid函數,也稱爲 Logistic 函數,作用是將輸入數據映射到[0, 1]之間。
x = torch.arange(-10, 10, 0.2)
y = torch.sigmoid(x)
plt.plot(x.data.numpy(), y.data.numpy(), lw=5)
plt.xlim(-10, 10)
plt.ylim(0, 1)
plt.vlines(0, 0, 1, linestyles="--", colors='gray')
plt.hlines(0.5, -10, 10, linestyles="--", colors='gray')
plt.show()
線性迴歸是分析自變量x與因變量y(標量)之間關係的方法。
邏輯迴歸是分析自變量x與因變量y(概率)之間關係的方法。
假如沒有激活函數f(x),單純用y = WX + b,其實也可以進行二分類,對應圖像可以看出,WX + b > 0時判別爲類別1,WX + b ≤ 0時判別爲類別0。爲了更好的描述分類置信度,所以採用Sigmoid函數將輸出映射到[0,1],符合概率取值。
邏輯迴歸也叫對數機率迴歸。機率就是,表示樣本x爲正樣本的可能性。對機率取對數,就得到了對數機率。線性迴歸y = WX+b是用WX+b去擬合y,爲邏輯迴歸模型表達式的恆等變形,是用WX+b去擬合對數機率,因此叫做對數機率迴歸。
import torch
import matplotlib.pyplot as plt
import torch.nn as nn
import numpy as np
torch.manual_seed(10)
# 生成數據
sample_num = 100
mean = 1.7
bias = 1
n_data = torch.ones(sample_num, 2)
x0 = torch.normal(mean * n_data, 1) + bias # 類別0的數據
y0 = torch.zeros(sample_num) # 類別0的標籤
x1 = torch.normal(-mean * n_data, 1) + bias # 類別1的數據
y1 = torch.ones(sample_num) # 類別1的標籤
train_x = torch.cat((x0, x1), 0)
train_y = torch.cat((y0, y1), 0)
# 選擇模型
class LR(nn.Module): # 用nn.Module構建邏輯迴歸模型類
def __init__(self):
super(LR, self).__init__()
self.features = nn.Linear(2, 1)
self.sigmoid = nn.Sigmoid()
def forward(self, x): # 前向傳播函數
x = self.features(x)
x = self.sigmoid(x)
return x
lr_net = LR() # 實例化邏輯迴歸模型
# 損失函數
loss_fn = nn.BCELoss() # 二分類的交叉熵函數
# 優化器
lr = 0.01 # 學習率
optimizer = torch.optim.SGD(lr_net.parameters(), lr=lr, momentum=0.9)
# 迭代訓練
for i in range(1000):
y_pre = lr_net(train_x) # 前向傳播
loss = loss_fn(y_pre.squeeze(), train_y) # 計算loss
loss.backward() # 反向傳播
optimizer.step() # 更新參數
mask = y_pre.ge(0.5).float().squeeze() # 以0.5爲閾值進行分類
correct = (mask == train_y).sum() # 正確預測的樣本個數
acc = correct.item() / train_y.size(0) # 計算分類準確率
# 繪圖
if i == 999 or acc > 0.99:
plt.scatter(x0.data.numpy()[:, 0], x0.data.numpy()[:, 1], c="r", label='class 0')
plt.scatter(x1.data.numpy()[:, 0], x1.data.numpy()[:, 1], c="b", label='class 1')
w0, w1 = lr_net.features.weight[0]
w0, w1 = float(w0.item()), float(w1.item())
plot_b = float(lr_net.features.bias[0].item())
plot_x = np.arange(-6, 6, 0.1)
plot_y = (-w0 * plot_x - plot_b) / w1
plt.xlim(-5, 7)
plt.ylim(-7, 7)
plt.plot(plot_x, plot_y)
plt.text(-5, 5, 'loss=%.4f' % loss.data.numpy(), fontdict={'size': 20, 'color': 'red'})
plt.title('i:{} w0:{:.2f} w1:{:.2f} b:{:.2f} acc:{:.2%}'.format(i, w0, w1, plot_b, acc))
plt.legend()
plt.pause(0.5)
break
如果把mean調整得更小,例如1或者0.5,會發現樣本點有部分重合,即使訓練到最後,準確率也很低;如果把mean調整得更大,例如5,會發現樣本點分佈很明顯,更容易分類。
如果把bias調整成絕對值很大的數,例如5,會發現不管怎麼訓練模型都無法分類,這是因爲,從sigmoid圖像中可以看出,如果數據比較大的時候,梯度幾乎爲0,反向傳播求導無法求到一個很好的梯度,所以沒有辦法訓練模型,這種情況稱爲梯度消失。
所以我們要對數據進行歸一化處理,讓它們處於0附近。