PyTorch实现L1,L2正则化以及Dropout
模型训练中经常出现的两类典型问题:
- 一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);
- 另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。
在实践中,我们要尽可能同时应对欠拟合和过拟合。
过拟合现象,即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。
为此我们可以使用两种方法权重衰减(weight decay)、丢弃法(dropout)。
权重衰减(weight decay)
可以使用L1,L2正则化
正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。
范数惩罚项指的是模型权重参数每个元素的绝对值和与一个正的常数的乘积
范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。
举线性回归损失函数
为例,其中是权重参数,是偏差参数,样本的输入为,标签为,样本数为。将权重参数用向量表示,
带有范数惩罚项的新损失函数为
带有范数惩罚项的新损失函数为
其中超参数。当权重参数均为0时,惩罚项最小。当较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当设为0时,惩罚项完全不起作用。
初始化模型参数
首先,定义随机初始化模型参数的函数。该函数为每个参数都附上梯度。
def init_params():
w = torch.randn((num_inputs, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
return [w, b]
定义范数惩罚项
下面定义范数惩罚项。这里只惩罚模型的权重参数。
def l1_penalty(w):
return (torch.abs(w)).sum()
定义范数惩罚项
def l2_penalty(w):
return (w**2).sum() / 2
定义训练和测试
下面定义如何在训练数据集和测试数据集上分别训练和测试模型。这里在计算最终的损失函数时添加了范数惩罚项。
batch_size, num_epochs, lr = 1, 100, 0.003
net, loss = d2l.linreg, d2l.squared_loss
dataset = torch.utils.data.TensorDataset(train_features, train_labels)
train_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle=True)
def fit_and_plot(lambd):
w, b = init_params()
train_ls, test_ls = [], []
for _ in range(num_epochs):
for X, y in train_iter:
# # 添加了L1范数惩罚项
# l = loss(net(X, w, b), y) + lambd * l1_penalty(w)
# 添加了L2范数惩罚项
l = loss(net(X, w, b), y) + lambd * l2_penalty(w)
l = l.sum()
if w.grad is not None:
w.grad.data.zero_()
b.grad.data.zero_()
l.backward()
d2l.sgd([w, b], lr, batch_size)
train_ls.append(loss(net(train_features, w, b), train_labels).mean().item())
test_ls.append(loss(net(test_features, w, b), test_labels).mean().item())
d2l.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
range(1, num_epochs + 1), test_ls, ['train', 'test'])
print('L2 norm of w:', w.norm().item())
# 观察过拟合
fit_and_plot(lambd=0)
# 使用权重衰减
fit_and_plot(lambd=3)
- 权重衰减可以通过优化器中的
weight_decay
超参数来指定。
丢弃法 (Dropout)
丢弃法简单理解为以一定概率丢弃一些神经元。
设随机变量为0和1的概率分别为和。使用丢弃法时我们计算新的隐藏单元
由于,因此
由此可得丢弃法不改变其输入的期望值。下面的dropout
函数将以drop_prob
的概率丢弃X
中的元素。
%matplotlib inline
import torch
import torch.nn as nn
import numpy as np
def dropout(X, drop_prob):
X = X.float()
keep_prob = 1 - drop_prob
# 这种情况下把全部元素都丢弃
if keep_prob == 0:
return torch.zeros_like(X)
mask = (torch.randn(X.shape) < keep_prob).float()
return mask * X / keep_prob
我们运行几个例子来测试一下dropout
函数。其中丢弃概率分别为0、0.5和1。
X = torch.arange(16).view(2, 8)
dropout(X, 0)
dropout(X, 0.5)
dropout(X, 1.0)
简洁实现
在PyTorch中,我们只需要在全连接层后添加Dropout
层并指定丢弃概率。在训练模型时,Dropout
层将以指定的丢弃概率随机丢弃上一层的输出元素;在测试模型时(即model.eval()
后),Dropout
层并不发挥作用。
net = nn.Sequential(
d2l.FlattenLayer(),
nn.Linear(num_inputs, num_hiddens1),
nn.ReLU(),
nn.Dropout(drop_prob1),
nn.Linear(num_hiddens1, num_hiddens2),
nn.ReLU(),
nn.Dropout(drop_prob2),
nn.Linear(num_hiddens2, 10)
)
for param in net.parameters():
nn.init.normal_(param, mean=0, std=0.01)
下面训练并测试模型。
optimizer = torch.optim.SGD(net.parameters(), lr=0.5)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)