统计学习方法——第2章感知机模型

原創

qq_37172182

2020-06-25 22:04

感知机（perception）是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。

2.1 感知机模型

$f(x)=\operatorname{sign}(w \cdot x+b)$

$w$ 和 $b$ 为感知机模型参数， $w \in \mathbf{R}^{n}$ 叫做权重或权值向量， $b \in \mathbf{R}$ 叫做偏置， $w\cdot x$ 表示内积。

几何解释：

线性方程 $w\cdot x + b = 0$ 对应于特征空间 $\mathbf{R}^{n}$ 的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面 $S$ 将特征空间划分为正负两类样本的空间。 $S$ 称为分离超平面。

线性可分性：如果存在某个超平面 $S$ 能够将正实例点和负实例点完全正确地划分到超平面两侧，则数据集具有线性可分性。

定理（Novikoff）:设训练数据集 $T = \{ (x_1, y_1), (x_2, y_2), ... , (x_N, y_N)\}$ 是线性可分的，其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n}$ , $y_{i} \in \mathcal{Y}=\{-1,+1\}$ ，则：

（1）存在满足条件 $||\hat w_{opt}|| = 1$ 的超平面 $\hat{w}_{\mathrm{opt}} \cdot \hat{x}=w_{\mathrm{opt}} \cdot x+b_{\mathrm{opt}}=0$ 将数据集完全正确分开；且存在 $\gamma >0$ ，满足：
$y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right) \geqslant \gamma$
（2）令 $R = max\{||\hat x_i||\}$ ,则感知算法在训练数据集上的误分类次数 $k$ 满足不等式：
$k \leqslant\left(\frac{R}{\gamma}\right)^{2}$

2.2 感知机学习策略

对于误分类点 $(x_i,y_i)$ , 当 $w\cdot x+b >0$ 时， $y_i=-1$ ;当 $w\cdot x+b <0$ 时， $y_i=+1$ ,所以有:
$-y_i(w\cdot x + b ) > 0$
误分类点 $(x_i,y_i)$ 到超平面 $S$ 的距离为：
$d = -\dfrac{y_i(w\cdot x + b)}{||w||}$
设所有误分类点到超平面 $S$ 的集合为 $M$ ，则总距离(忽略 $\dfrac{1}{||w||}$ ) 为：
$d_s = -\sum_{x_i \in M}y_i(w\cdot x +b)$
因此，感知机 $\operatorname{sign}(w \cdot x+b)$ 的损失函数定义为：
$L(w,b) = -\sum_{x_i \in M}y_i(w\cdot x + b)$

即感知机学习的是经验风险最小化的损失函数（经验风险函数）。

2.3 原始形式的感知机学习算法

感知机学习算法是误分类驱动，采用随机梯度下降（SGD）算法。随机选取超平面 $(w_0,b_0)$ ，采用梯度下降算法最小化损失函数。对于误分类点 $(x_i,y_i)$ ，满足: $y_i(w\cdot x + b \leqslant 0)$ ，采用如下更新方式：

$w$ 的梯度计算： $\nabla_{w} L(w, b)=-\sum_{x_{i} \in M} y_{i} x_{i}$ ；更新公式： $w \leftarrow w+\eta y_{i} x_{i}$ ；

$b$ 的梯度计算： $\nabla_{b} L(w, b)=-\sum_{x_{i} \in M} y_{i}$ ；更新公式： $b \leftarrow b+\eta y_{i}$ ；

注:感知机学习由于采用不同的初值或选取不同的误分类点，解可以不同。由Novikoff定理可知，误分类次数 $k$ 存在上界，经过有限次搜索可以找到将训练数据集完全分开的分离超平面，即当数据集线性可分时，感知学习算法是收敛的。为了得到唯一超平面，需要对超平面添加约束条件，即线性支持向量机。当训练数据集线性不可分时，感知机学习算法不收敛，迭代结果会发生振荡。

2.4 对偶形式的感知机学习算法

感知机模型：
$f(x)=\operatorname{sign}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x+b\right)$
其中 $\alpha=\left(\alpha_{1}, \alpha_{2}, \cdots, \alpha_{N}\right)^{\mathrm{T}}$ ， $\alpha_{i}=n_{i} \eta$ ，对于 $y_{i}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x_{i}+b\right) \leqslant 0$ ,采用如下更新公式：

$w \leftarrow w+\eta y_{i} x_{i}$ ，最终学习的 $w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}$

$b \leftarrow b+\eta y_{i}$ ，最终学习的 $b=\sum_{i=1}^{N} \alpha_{i} y_{i}$

为了方便，可以预定义并存储实例间内积矩阵，即Gram Matrix: $G=\left[x_{i} \cdot x_{j}\right]_{N\times N}$ 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

统计学习方法——第2章感知机模型

2.1 感知机模型

2.2 感知机学习策略

2.3 原始形式的感知机学习算法

2.4 对偶形式的感知机学习算法

Pytorch實例----NLP之文本分類

統計學習方法——第1章統計學習方法概論

統計學習方法——第2章感知機模型

Pytorch學習基礎——LSTM從訓練到測試

統計學習方法——第2章感知機模型編程實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

统计学习方法——第2章 感知机模型

2.1 感知机模型

2.2 感知机学习策略

2.3 原始形式的感知机学习算法

2.4 对偶形式的感知机学习算法

统计学习方法——第2章感知机模型