PyTorch实现L1，L2正则化以及Dropout

原創

h_astro

2019-08-23 01:25

PyTorch实现L1，L2正则化以及Dropout

模型训练中经常出现的两类典型问题：

一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；
另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。

在实践中，我们要尽可能同时应对欠拟合和过拟合。

过拟合现象，即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。

为此我们可以使用两种方法权重衰减（weight decay）、丢弃法（dropout）。

权重衰减（weight decay）

可以使用L1，L2正则化

正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。

$L_1$ 范数惩罚项指的是模型权重参数每个元素的绝对值和与一个正的常数的乘积

$L_2$ 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。
举线性回归损失函数
$\ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2$
为例，其中 $w_1, w_2$ 是权重参数， $b$ 是偏差参数，样本 $i$ 的输入为 $x_1^{(i)}, x_2^{(i)}$ ，标签为 $y^{(i)}$ ，样本数为 $n$ 。将权重参数用向量 $\boldsymbol{w} = [w_1, w_2]$ 表示，

带有 $L_1$ 范数惩罚项的新损失函数为

$\ell(w_1, w_2, b) + \frac{\lambda}{n} |\boldsymbol{w}|,$

带有 $L_2$ 范数惩罚项的新损失函数为

$\ell(w_1, w_2, b) + \frac{\lambda}{2n} \|\boldsymbol{w}\|^2,$

其中超参数 $\lambda > 0$ 。当权重参数均为0时，惩罚项最小。当 $\lambda$ 较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当 $\lambda$ 设为0时，惩罚项完全不起作用。
初始化模型参数

首先，定义随机初始化模型参数的函数。该函数为每个参数都附上梯度。

def init_params():
    w = torch.randn((num_inputs, 1), requires_grad=True)
    b = torch.zeros(1, requires_grad=True)
    return [w, b]

定义 $L_1$ 范数惩罚项

下面定义 $L_1$ 范数惩罚项。这里只惩罚模型的权重参数。

def l1_penalty(w):
    return (torch.abs(w)).sum()

定义 $L_2$ 范数惩罚项

def l2_penalty(w):
    return (w**2).sum() / 2

定义训练和测试

下面定义如何在训练数据集和测试数据集上分别训练和测试模型。这里在计算最终的损失函数时添加了 $L_2$ 范数惩罚项。

batch_size, num_epochs, lr = 1, 100, 0.003
net, loss = d2l.linreg, d2l.squared_loss

dataset = torch.utils.data.TensorDataset(train_features, train_labels)
train_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle=True)

def fit_and_plot(lambd):
    w, b = init_params()
    train_ls, test_ls = [], []
    for _ in range(num_epochs):
        for X, y in train_iter:
            # # 添加了L1范数惩罚项
            # l = loss(net(X, w, b), y) + lambd * l1_penalty(w)
            # 添加了L2范数惩罚项
            l = loss(net(X, w, b), y) + lambd * l2_penalty(w)
            l = l.sum()
            
            if w.grad is not None:
                w.grad.data.zero_()
                b.grad.data.zero_()
            l.backward()
            d2l.sgd([w, b], lr, batch_size)
        train_ls.append(loss(net(train_features, w, b), train_labels).mean().item())
        test_ls.append(loss(net(test_features, w, b), test_labels).mean().item())
    d2l.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
                 range(1, num_epochs + 1), test_ls, ['train', 'test'])
    print('L2 norm of w:', w.norm().item())
       
# 观察过拟合
fit_and_plot(lambd=0)

# 使用权重衰减
fit_and_plot(lambd=3)

权重衰减可以通过优化器中的weight_decay超参数来指定。

丢弃法 (Dropout)

丢弃法简单理解为以一定概率丢弃一些神经元。

设随机变量 $\xi_i$ 为0和1的概率分别为 $p$ 和 $1-p$ 。使用丢弃法时我们计算新的隐藏单元 $h_i'$
$h_i' = \frac{\xi_i}{1-p} h_i$
由于 $E(\xi_i) = 1-p$ ，因此
$E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i$
由此可得丢弃法不改变其输入的期望值。下面的dropout函数将以drop_prob的概率丢弃X中的元素。

%matplotlib inline
import torch
import torch.nn as nn
import numpy as np

def dropout(X, drop_prob):
    X = X.float()
    keep_prob = 1 - drop_prob
    # 这种情况下把全部元素都丢弃
    if keep_prob == 0:
        return torch.zeros_like(X)
    mask = (torch.randn(X.shape) < keep_prob).float()
    
    return mask * X / keep_prob

我们运行几个例子来测试一下dropout函数。其中丢弃概率分别为0、0.5和1。

X = torch.arange(16).view(2, 8)
dropout(X, 0)

dropout(X, 0.5)

dropout(X, 1.0)

简洁实现

在PyTorch中，我们只需要在全连接层后添加Dropout层并指定丢弃概率。在训练模型时，Dropout层将以指定的丢弃概率随机丢弃上一层的输出元素；在测试模型时（即model.eval()后），Dropout层并不发挥作用。

net = nn.Sequential(
        d2l.FlattenLayer(),
        nn.Linear(num_inputs, num_hiddens1),
        nn.ReLU(),
        nn.Dropout(drop_prob1),
        nn.Linear(num_hiddens1, num_hiddens2), 
        nn.ReLU(),
        nn.Dropout(drop_prob2),
        nn.Linear(num_hiddens2, 10)
        )

for param in net.parameters():
    nn.init.normal_(param, mean=0, std=0.01)

下面训练并测试模型。

optimizer = torch.optim.SGD(net.parameters(), lr=0.5)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

PyTorch实现L1，L2正则化以及Dropout

PyTorch实现L1，L2正则化以及Dropout

模型训练中经常出现的两类典型问题：

权重衰减（weight decay）

丢弃法 (Dropout)

简洁实现

杭州的 IT 崩盘了么？

开源高性能结构化日志模块NanoLog

Azure Virtual Network (22) 多订阅使用Azure DNS解析问题 Windows Azure Platform 系列文章目录

Python 潮流周刊#55：分享 9 个高质量的技术类信息源！

【简写Mybatis-02】注册机的实现以及SqlSession处理

手绘二维码

.NET借助虚拟网卡实现一个简单异地组网工具

SSM 環境搭建

使用JDBC數據庫mysql5的增刪查改

Lee-ML-notes-RNN_LSTM

LeetCode--238除自身以外數組的乘積-左累乘右累乘-cpp

本地遠程訪問服務器jupyter

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結