Python机器学习及实践——进阶篇：模型实用技巧（模型正则化）

任何机器学习模型在训练集上的性能表现，都不能作为其对未知测试数据预测能力的评估。

1. 欠拟合与过拟合

所谓拟合，是指机器学习模型在训练的过程中，通过更新参数，使得模型不断契合可观测数据（训练集）的过程。

使用线性回归模型在披萨训练样本上进行拟合：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : Fitting.py
@Author: Xinzhe.Pang
@Date  : 2019/7/23 23:50
@Desc  : 
"""
# 输入训练样本的特征以及目标值，分别存储在变量X_train与y_train之中
X_train = [[6], [8], [10], [14], [18]]
y_train = [[7], [9], [13], [17.5], [18]]

# 导入LinearRegression
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)

import numpy as np

# 在x轴上从0至25均匀采样100个数据点
xx = np.linspace(0, 26, 100)
xx = xx.reshape(xx.shape[0], 1)

# 以上述100个数据点作为基准，预测回归直线
yy = lr.predict(xx)

# 对回归预测到的直线作图
import matplotlib.pylab as plt

plt.scatter(X_train, y_train)
plt1, = plt.plot(xx, yy, label="Degree = 1")

plt.axis([0, 25, 0, 25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')
plt.legend(handles=[plt1])
plt.show()

# 输出线性回归模型在训练样本上的R-squared值
print('The R-squared value of Linear Regressor performing on the training data is', lr.score(X_train, y_train))

The R-squared value of Linear Regressor performing on the training data is 0.910001596424

使用2次多项式回归模型在披萨训练样本上进行拟合：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : Fitting2.py
@Author: Xinzhe.Pang
@Date  : 2019/7/24 20:29
@Desc  : 
"""
import numpy as np
# 导入多项式特征产生器
from sklearn.preprocessing import PolynomialFeatures
# 导入LinearRegression
from sklearn.linear_model import LinearRegression
# 分别对训练数据点、线性回归直线、2次多项式回归曲线进行作图
import matplotlib.pyplot as plt

# 输入训练样本的特征以及目标值，分别存储在变量X_train与y_train之中
X_train = [[6], [8], [10], [14], [18]]
y_train = [[7], [9], [13], [17.5], [18]]

lr = LinearRegression()
lr.fit(X_train, y_train)

# 在x轴上从0至25均匀采样100个数据点
xx = np.linspace(0, 26, 100)
xx = xx.reshape(xx.shape[0], 1)
# 以上述100个数据点作为基准，预测回归直线
yy = lr.predict(xx)

# 使用PolynominalFeatures(degree = 2)映射出2次多项式特征，存储在变量X_train_poly2中
poly2 = PolynomialFeatures(degree=2)
X_train_poly2 = poly2.fit_transform(X_train)

# 以线性回归器为基础，初始化回归模型。尽管特征的维度有提升，但是模型基础仍然是线性模型
lr_poly2 = LinearRegression()

# 对2次多项式回归模型进行训练
lr_poly2.fit(X_train_poly2, y_train)

# 从新映射绘图用x轴采样数据
xx_poly2 = poly2.transform(xx)
# 使用2次多项式回归模型对应x轴采样数据进行回归预测
yy_poly2 = lr_poly2.predict(xx_poly2)

plt.scatter(X_train, y_train)
plt1, = plt.plot(xx, yy, label='Degree = 1')
plt2, = plt.plot(xx, yy_poly2, label='Degree=2')
plt.axis([0, 25, 0, 25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')
plt.legend(handles=[plt1, plt2])
plt.show()

# 输出2次多项式回归模型在训练样本上的R-squared值
print('The R-squared value of Polynominal Regressor (Degree = 2) performing on the training data is',
      lr_poly2.score(X_train_poly2, y_train))

The R-squared value of Polynominal Regressor (Degree = 2) performing on the training data is 0.98164216396

升高了特征维度之后，2次多项式回归模型在训练样本上的性能表现更加突出，R-squared值从0.910上升到0.982.

使用4次多项式回归模型在披萨训练样本上进行拟合：

# 导入多项式特征生成器
from sklearn.preprocessing import PolynomialFeatures

# 初始化4次多项式特征生存器
poly4 = PolynomialFeatures(degree=4)
X_train_n_poly4 = poly4.fit_transform(X_train)

# 使用默认配置初始化4次多项式回归器
lr_poly4 = LinearRegression()
lr_poly4.fit(X_train_n_poly4, y_train)

# 从新映射绘图用x轴采样数据
xx_poly4 = poly4.transform(xx)
# 使用4次多项式回归模型对x轴采样数据进行回归预测
yy_poly4 = lr_poly4.predict(xx_poly4)

# 分别对训练数据点、线性回归直线、2次多项式以及4次多项式回归曲线进行作图
plt.scatter(X_train, y_train)
plt1, = plt.plot(xx, yy, label="Degree=1")
plt2, = plt.plot(xx, yy_poly2, label="Degree=2")

plt4, = plt.plot(xx, yy_poly4, label="Degree=4")
plt.axis([0, 25, 0, 25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')

plt.legend(handles=[plt1, plt2, plt4])
plt.show()
print('The R-squared value of Polynominal Regressor(Degree=4) performing on the training data is',
      lr_poly4.score(X_train_n_poly4, y_train))

The R-squared value of Polynominal Regressor(Degree=4) performing on the training data is 1.0

评估3种回归模型在测试数据集上的性能表现：

# 准备测试数据
X_test = [[6], [8], [11], [16]]
y_test = [[8], [12], [15], [18]]

# 使用测试数据对线性回归模型的性能进行评估
print(lr.score(X_test, y_test))
# 使用测试数据对2次多项式回归模型的性能进行评估
X_test_poly2 = poly2.transform(X_test)
print(lr_poly2.score(X_test_poly2, y_test))
# 使用测试数据对4次多项式回归模型的性能进行评估
X_test_poly4 = poly4.transform(X_test)
print(lr_poly4.score(X_test_poly4, y_test))

0.809726797708
0.867544365635
0.809588079578

当模型复杂度较低（Degree=1）时，模型不仅没有对训练集上的数据有良好的拟合状态，而且在测试集上也是表现平平，这种情况叫做欠拟合（Underfitting）；当模型复杂度较高（Degree=4）时，模型几乎完全拟合了所有的训练数据，但是几乎丧失了对未知数据的预测能力，这种情况叫做过拟合（Over fitting）。这两种情况都是缺乏模型泛化力的表现。

为了更好的模型泛化力，要求在增加模型复杂度、提高在可观测数据上的性能表现的同时，又需要兼顾模型的泛化力，防止发生过拟合的情况。通常采用两种模型正则化的方法。分别是L1范数正则化和L2范数正则化。

2. L1范数正则化

正则化（Regularization）的目的在于提高模型在未知测试数据上的泛化力，避免参数过拟合。

正则化的常见方法都是在原模型优化目标的基础上，增加对参数的惩罚（Penalty）项。在原优化目标的基础上，增加了参数向量的L1范数。这样在新目标优化的过程中同时需要考量L1惩罚项的影响。为了使目标最小化，这种正则化方法的结果会让参数向量中许多元素趋向于0，使得大部分特征失去对优化目标的贡献。这种让有效特征变得稀疏的L1正则化模型，通常被称为Lasso。

Lasso模型在4次多项式特征上的拟合表现

# 从sklearn.linear_mode中导入Lasso
from sklearn.linear_model import Lasso

# 使用默认参数初始化Lasso
lasso_poly4 = Lasso()
# 使用Lasso对4次多项式特征进行拟合
lasso_poly4.fit(X_train_n_poly4, y_train)
# 对Lasso模型在测试样本上的回归性能进行评估
print(lasso_poly4.score(X_test_poly4, y_test))

# 输出Lasso模型的参数列表
print(lasso_poly4.coef_)

# 4次多项式回归模型过拟合之后的性能
print(lr_poly4.score(X_test_poly4, y_test))
# 4次多项式回归模型的参数列表
print(lr_poly4.coef_)

0.83889268736
[ 0.00000000e+00 0.00000000e+00 1.17900534e-01 5.42646770e-05
-2.23027128e-04]
0.809588079578
[[ 0.00000000e+00 -2.51739583e+01 3.68906250e+00 -2.12760417e-01
4.29687500e-03]]

通过对代码一系列输出的观察，验证了我们所介绍的Lasso模型的特点：

相比于普通4次多项式回归模型在测试集上的表现，默认配置的Lasso模型性能提高了大约3%；
相较之下，Lasso模型拟合后的参数列表中，4次与3次特征的参数均为0.0，使得特征更加稀疏。

3. L2范数正则化

L2范数正则化则在原优化目标的基础上，增加了参数向量的L2范数的惩罚项。为了使新优化目标最小化，这种正则化方法的结果会让参数向量中的大部分元素都变得很小，压制了参数之间的差异性。这种正则化模型通常被称为Ridge。

Ridge模型在4次多项式特征上的拟合表现：

# 4次多项式回归模型的参数列表
print(lr_poly4.coef_)
# 输出上述这些参数的平方和，验证参数之间的巨大差异
print(np.sum(lr_poly4.coef_ ** 2))

# 从sklearn.linear_model导入Ridge
from sklearn.linear_model import Ridge

# 使用默认参数初始化Riedge
ridge_poly4 = Ridge()

# 使用Ridge模型对4次多项式特征进行拟合
ridge_poly4.fit(X_train_n_poly4, y_train)

# 输出Ridge模型在测试样本上的回归性能
print(ridge_poly4.score(X_test_poly4, y_test))

# 输出Ridge模型的参数列表，观察参数差异
print(ridge_poly4.coef_)

# 计算Ridge模型拟合后参数的平方和
print(np.sum(ridge_poly4.coef_ ** 2))

[[ 0.00000000e+00 -2.51739583e+01 3.68906250e+00 -2.12760417e-01
4.29687500e-03]]
647.382645692

0.837420175937
[[ 0. -0.00492536 0.12439632 -0.00046471 -0.00021205]]
0.0154989652035

通过对上述输出的观察，可以验证Ridge模型的特点：

相比于普通4次多项式回归模型在测试集上的表现，默认配置的Ridge模型性能提高了近3%；
与普通4次多项式回归模型不同的是，Ridge模型拟合后的参数之间差异非常小。

需要注意的是在惩罚项中都有一个因子λ进行调节。尽管λ不属于需要拟合的参数，却在模型优化中扮演非常重要的角色。

【Python机器学习及实践】进阶篇：模型实用技巧（模型正则化）

Python机器学习及实践——进阶篇：模型实用技巧（模型正则化）

1. 欠拟合与过拟合

2. L1范数正则化

3. L2范数正则化

【面試】網易遊戲面試題目整理及答案（5）

【面試】網易遊戲面試題目整理及答案（4）

【Linux】Ubuntu下如何查看用戶登錄及用戶操作歷史相關信息

【Java EE】深入Spring數據庫事務管理

【編程題】中國象棋&路燈

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結