第二章感知機

一、感知機模型[2.1]

超平面：
輸入空間是n維向量，那麼超空間就是(n-1)維向量
【鍵盤字母上面的數字1到0（10個不同的變量），如果想把它們分割開，需要有(10-1)個隔板（9個超空間）】

分離超平面（將n整合爲2的超平面）：
在一個平面中劃一條線，使平面中的樣本儘可能的分爲正負兩類。（一般判斷是或不是）

（一）定義2.1

簡單定義：【感知機就是 求出分離超平面，再 通過分離超平面來進行二分類 的一種模型。】

具體定義：

w∊Rⁿ：叫作權值或權值向量
b∊R ：叫作偏置
w·x表示w和x的內積（就是點積）

！注意，w和x都是長度爲n的向量

感知機是一種 線性分類模型 ，屬於 判別模型 。
感知機模型的假設空間是定義在特徵空間中的 所有線性分類模型 或 線性分類器 ，
即函數集合 { f | f(x)＝w·x+b } 。

(二)幾何解釋

||w||：向量w的2範數是w中各個元素平方之和再開根號，就是向量的模（長度） ；
AD算出來是： $-\frac{b}{\sqrt{1+w^2}}$
怎麼變成： $-\frac{b}{||w||}$ 也就是 $-\frac{b}{\sqrt{w^2}}$ 的不是很清楚

二、感知機學習策略[2.2]

（一）數據集的線性可分型[2.2.1]

能用一條線 完全的 分割爲兩種類型，就稱數據集有線性可分型。（不能有一類的某個點跑到另一類裏面）

（二）感知機學習策略[2.2.2]

定義（經驗）損失函數並將損失函數 極小化 ，求出w、b。
這裏的損失函數爲：誤分類點到超平面（那條線）S的總距離。

具體推倒：

1、把點到直線距離公式擺上來，代入超平面方程

距離 $d=\frac{|Ax_i + By_i + C|}{\sqrt{A^2 + B^2}}$
已知超平面方程爲：w·x+b=0，代入上式，得：
距離 $d=\frac{|wx_i + b|}{\sqrt{w^2}}=\frac{|wx_i + b|}{||w||}$

2、爲了去掉絕對值，我們現在看看誤分類數據有什麼特點

已知有個誤分類的數據(x_i, y_i)
因爲它誤分類了，所以當：
（1）w·x_i+b>0，即被分類爲正類時，它的原分類y_i必爲-1(負類)
（2）w·x_i+b<0，即被分類爲負類時，它的原分類y_i必爲+1(正類)

那麼對誤分類的數據必有： $y_i(w·x_i+b)<0$
而距離是正數，所以在前面加上負號，變成： $d=-\frac{y_i(wx_i + b)}{||w||}$

【乘上一個 “-y_i” 就可以把絕對值去掉，還可以篩出誤分類的數據（正確分類的距離必爲負值）】

3、推廣到多個點

M爲誤分類點的集合
（1）總距離爲： $-\frac{1}{||w||}\sum_{x_i\epsilon M}y_i(w·x+b)$

（2）因爲w是超平面的法向量，與大小無關，而 $\frac{1}{||w||}$ 是一個標量，所以可以忽略 $\frac{1}{||w||}$

（3）得到感知機學習的損失函數（經驗風險函數）： $L(w,b)=-\sum_{x_i\epsilon M}y_i(w·x+b)$

（三）損失函數特性

1、非負（距離）
2、正確分類時值爲0
3、損失函數是連續可導函數：在誤分類時，它是線性函數；正確分類時它是常數函數。

三、感知機學習算法[2.3]

（一）感知機學習算法的原始形式[2.3.1]

通過 梯度下降法 求損失函數的極小值： $min_{w,b}\quad L(w,b)=-\sum_{x_i\epsilon M}y_i(w·x+b) \qquad\qquad(2.5)$

1、梯度下降法的幾何解釋：通過不斷的運算，使點向極小值逼近。

2、梯度下降法的具體算法【本章重點】

損失函數的梯度： $（由2.5對w求偏導）\bigtriangledown_wL(w,b)=-\sum_{x_i\epsilon M}y_ix_i$ $（由2.5對b求偏導）\bigtriangledown_bL(w,b)=-\sum_{x_i\epsilon M}y_i$

（1）任取一個超平面（任取w,b）

（2）得到誤分類點的集合M

（3）遍歷誤分類點求梯度對w,b進行更新： $w \gets w+\eta y_ix_i$ $b \gets b+\eta y_i$

（4）直到L(w,b)=0

$\eta$ (0< $\eta$ <=1)是步長，又稱學習率，用來控制梯度大小。
（在吳恩達的machine learning中，學習率用的是 $\theta$ ）

3、梯度下降法的其他解釋

當一個實例點被誤分類，即位於分離超平面的錯誤一側時，則調整w,b的值，使分離超平面向該誤分類點的一側移動，以減少該誤分類點與超平面間的距離，直至超平面越過該誤分類點使其被正確分類。

4、例2.1（略），通過梯度下降法的具體算法很容易理解

（二）算法的收斂性[2.3.2]（算法收斂的證明）（儘量簡化通俗了）

這裏證明經過 有限次迭代 可以得到一個將訓練數據集 完全正確劃分 的分離超平面及感知機模型。

爲了便於敘述與推導，
將偏置b併入權重向量w，記作： $\hat{w}$ =(w^T,b)^T，
同樣也將輸入向量加以擴充，加進常數1，記作： $\hat{x}$ =(x^T,1)^T 。
這樣， $\hat{w}$ ∊R N+1 ， $\hat{x}$ ∊R N+1 。 顯然， $\hat{w}$ · $\hat{x}$ ＝w·x+b。

結論：

1、對於（1）書中的證明

（1）由於訓練數據集是線性可分的，存在超平面可將訓練數據集完全正確分開，
取此超平面爲 $\hat{w}_{opt}·\hat{x}=w_{opt}·x+b_{opt}=0$ ，使 $||\hat{w}_{opt}||=1$ 。由於對有限的i＝1,2,…,N，均有： $y_i(\hat{w}_{opt}·\hat{x_i})=y_i(w_{opt}·x+b_{opt})>0$
所以存在 $\gamma=min_i \{y_i(w_{opt}·x+b_{opt})\}$
使

$******y_i(\hat{w}_{opt}·\hat{x_i})=y_i(w_{opt}·x+b_{opt})\ge\gamma\qquad（公式1）******$

（2）解釋

$\hat{w}_{opt}$ 、w_opt、b_opt的下標opt的意思是：【對任意可選的】 $\hat{w}$ 、w、b。只要滿足式子即可。
$||\hat{w}_{opt}||=1$ ，原因： $\hat{w}_{opt}$ 可以乘上任意常數使公式1都成立，所以，爲了特殊化，使 $\hat{w}_{opt}$ 爲單位長度，一般是 $||\hat{w}_{opt}||=1$
$\gamma就是一個大於0的數，沒啥意義$

2、對於（2）書中的證明（含解釋）

感知機算法從 $\hat{w}_0=0$ （方便後面推導） 開始，如果實例被誤分類，則更新權重。

分步證明每一步最終都會得到一個公式，最後進行合併得到推論

分步證明1

（1） 令 k-1 是第k個誤分類實例之前的擴充權重向量（就是 $\hat{w}$ 在右下角加了個k-1的下標），即
$\hat{w}_{k-1} = (w^T_{k-1},b_{k-1})^T$

（2） 則第k個誤分類實例的前提條件（第k次更新前的損失函數）是【這裏是把上面的 $w_{k-1}$ 和 $b_{k-1}$ 代入了損失函數】
$y_i(\hat{w}_{k-1}·\hat{x}_i)=y_i(w_{k-1}·x_i+b_{k-1})\le0$
小於0上面有推導，等於0是因爲存在沒有誤分類的情況

（3） 若(x_i,y_i)是被 $\hat{w}_{k-1} = (w^T_{k-1},b_{k-1})^T$ 誤分類的數據，則w和b的更新是
$w_k \gets w_{k-1}+\eta y_ix_i$ $b _k\gets b_{k-1}+\eta y_i$
【就是w和b的更新公式加了個下標】

根據上面的兩個更新公式化簡得：

$******\hat{w}_k=\hat{w}_{k-1}+\eta y_i\hat{x}_i\qquad（公式2）******$

化簡過程如下
$\hat{w}_k=(w^T_k,b_k)^T=w_k+b_k\\=w_{k-1}+\eta y_ix_i+b_{k-1}+\eta y_i\\=[w_{k-1}+b_{k-1}]+[\eta y_i(x_i+1)]\\=\hat{w}_{k-1}+\eta y_i\hat{x}_i$

分步證明2

（4） 由公式2 $\hat{w}_k=\hat{w}_{k-1}+\eta y_i\hat{x}_i$
可以求出： $\hat{w}_k·\hat{w}_{opt}=\hat{w}_{k-1}·\hat{w}_{opt}+\eta [y_i\hat{x}_i·\hat{w}_{opt}]$

（5）
由公式1（的一部分） $y_i(\hat{w}_{opt}·\hat{x_i})\ge\gamma$
我們就可以把上面（4）式子裏面方括號的東西換掉：
$\hat{w}_{k-1}·\hat{w}_{opt}+\eta [y_i\hat{x}_i·\hat{w}_{opt}]\quad\ge\quad\hat{w}_{k-1}·\hat{w}_{opt}+\eta \gamma$

（6） 我們把（5）中不等式的右邊推廣一下，得到（ $\eta$ 和 $\gamma$ 都是正的）：
$左邊\ge\hat{w}_{k-1}·\hat{w}_{opt}+\eta \gamma\ge\hat{w}_{k-2}·\hat{w}_{opt}+2·\eta \gamma\ge···\ge\hat{w}_{0}·\hat{w}_{opt}+k·\eta \gamma$
這裏 $k>=1,k\epsilon N^+$ （k是大於等於1的正整數）

由（4）和（5）整理得： $\hat{w}_k·\hat{w}_{opt}\ge\hat{w}_{0}·\hat{w}_{opt}+k·\eta \gamma= k·\eta \gamma（\hat{w}_{0}=0）$
得到

$******\hat{w}_k·\hat{w}_{opt}\ge k·\eta \gamma\qquad（公式3）******$

分步證明3

（7） 由分步證明1得出的公式2 “ $\hat{w}_k=\hat{w}_{k-1}+\eta y_i\hat{x}_i$ ”，等式兩邊平方得：
$||\hat{w}_k||^2=||\hat{w}_{k-1}||^2+2·\hat{w}_{k-1}·\eta y_i\hat{x}_i+\eta^2 y_i^2||\hat{x}_i||^2$
因爲y_i取正負1，所以 $y_i^2=1$ ，就變成了書中的式子（最後那項少了 $y_i^2$ ）：
$||\hat{w}_k||^2=||\hat{w}_{k-1}||^2+2·\hat{w}_{k-1}·\eta y_i\hat{x}_i+\eta^2 ||\hat{x}_i||^2$

（8） 由分步證明1的（2）中式子 “ $y_i(\hat{w}_{opt}·\hat{x_i})\le0$ ”；再由於“步進 $\eta$ ”必大於0
所以（7）最後式子中的 $2·\hat{w}_{k-1}·\eta y_i\hat{x}_i（必定小於等於0）$
即有： $||\hat{w}_{k-1}||^2+2·\hat{w}_{k-1}·\eta y_i\hat{x}_i+\eta^2 ||\hat{x}_i||^2\le||\hat{w}_{k-1}||^2+\eta^2 ||\hat{x}_i||^2$

（9） 最後，將 $||\hat{x}_i||$ 看作是R的下限，得到：
$||\hat{w}_{k-1}||^2+2·\hat{w}_{k-1}·\eta y_i\hat{x}_i+\eta^2 ||\hat{x}_i||^2\le||\hat{w}_{k-1}||^2+\eta^2 ||\hat{x}_i||^2\le||\hat{w}_{k-1}||^2+\eta^2 R^2$
仿造分步證明2（6）中的推廣，得到
$||\hat{w}_{k-1}||^2+\eta^2 R^2\le||\hat{w}_{0}||^2+k·\eta^2 R^2$
最後，整理（7）（9）得：

$******||\hat{w}_k||^2\le k\eta^2 R^2\qquad（公式4）******$

分步證明4

由公式3 “ $\hat{w}_k·\hat{w}_{opt}\ge k·\eta \gamma$ ”，
和公式4 “ $||\hat{w}_k||^2\le k\eta^2 R^2$ ”，得：
$k\eta\gamma \le \hat{w}_k·\hat{w}_{opt} \le ||\hat{w}_k||·||\hat{w}_{opt}|| \le \sqrt{k}\eta R（||\hat{w}_{opt}||=1，左邊用公式3，右邊用公式4）$
由不等式最左邊與最右邊 “ $k\eta\gamma \le \sqrt{k}\eta R$ ” 兩邊同時平方化簡得：
$k^2\gamma \le kR^2$
移下字母得：

$******k\le(\frac{R}{\gamma})^2\qquad（證畢）******$

定理表明，誤分類的次數k是有上界的，經過有限次搜索可以找到將訓練數據完全正確分開的分離超平面。
當訓練集線性不可分時，感知機學習算法不收斂，迭代結果會發生震盪。

*公式3和公式4的意義：
公式3： $\hat{w}_k·\hat{w}_{opt}\ge k·\eta \gamma$ ，說明 $\hat{w}_k$ 隨k的變大，下界變大
公式4 “ $||\hat{w}_k||^2\le k\eta^2 R^2$ ”，說明 $\hat{w}_k$ 的絕對值有上界
公式3+公式4的幾何意義， $\hat{w}_k$ 向量通過旋轉越來越接近 $\hat{w}_{opt}$ 向量

（三）感知機學習算法的對偶（等效）形式[2.3.3]

對偶形式對於原始形式最大的不同在於，對偶形式多給了 不同的點不同權重 ，而且對於計算機來說，計算量更小。
（因爲在超平面附近的點是最容易誤分類的，所以給這些點高權重，可以更快收斂）

在原始形式中：
$w \gets w+ \eta y_ix_i\\ b\gets b+\eta y_i$
那麼把上面的遞推式子整合（對全部的n個點），得到：
$w = \sum_{i=1}^{N} \alpha_iy_ix_i \\ b=\sum_{i=1}^{N}\alpha_iy_i$
上式中的 “ $\alpha_i=n_i\eta$ ” ，
$\eta$ 是遞推式子中本來就有的，
$n_i$ 其實就是個計數（出現幾次就是幾）的變量，那個點出現的次數越多，就代表着那個點離超平面越近， $n_i$ 代表的權重越大。

這裏把原始形式的經驗損失函數擺上來： $L(w,b)=-\sum_{x_i\epsilon M}y_i(w·x+b)\ge0$
把上面w的整合式代入，得： $-\sum_{x_i\epsilon M}y_i(\sum_{i=1}^{N} \alpha_iy_ix_i·x+b)\ge0$
去負號： $\sum_{x_i\epsilon M}y_i(\sum_{i=1}^{N} \alpha_iy_ix_i·x+b)\le0$
這時，在原始形式中更新w和b，就變成了更新 $\alpha_i$ 和b，即：
$\alpha_i \gets \alpha_i+\eta（就是計數器的意思）\\ b\gets b+\eta y_i$

補充，書中的Gram矩陣

Gram矩陣，用來儲存不同向量的內積
比如有x₁，x₂，x₃，三個向量，那麼Gram矩陣表示爲

x₁·x₁	x₁·x₂	x₁·x₃
x₂·x₁	x₂·x₂	x₂·x₃
x₃·x₁	x₃·x₂	x₃·x₃

例子：x₁=(3,3)^T，x₂=(4,3)^T，x₃=(1,1)^T，它們生成的Gram矩陣爲：

第二章結束… …

鏈接：[ 全文章目錄 ]

【統計學習方法by李航】第二章感知機個人總結

第二章感知機

一、感知機模型[2.1]

（一）定義2.1

(二)幾何解釋

二、感知機學習策略[2.2]

（一）數據集的線性可分型[2.2.1]

（二）感知機學習策略[2.2.2]

1、把點到直線距離公式擺上來，代入超平面方程

2、爲了去掉絕對值，我們現在看看誤分類數據有什麼特點

3、推廣到多個點

（三）損失函數特性

三、感知機學習算法[2.3]

（一）感知機學習算法的原始形式[2.3.1]

1、梯度下降法的幾何解釋：通過不斷的運算，使點向極小值逼近。

2、梯度下降法的具體算法【本章重點】

3、梯度下降法的其他解釋

4、例2.1（略），通過梯度下降法的具體算法很容易理解

（二）算法的收斂性[2.3.2]（算法收斂的證明）（儘量簡化通俗了）

1、對於（1）書中的證明

2、對於（2）書中的證明（含解釋）

分步證明1

分步證明2

分步證明3

分步證明4

（三）感知機學習算法的對偶（等效）形式[2.3.3]

補充，書中的Gram矩陣

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

【統計學習方法by李航】第二章感知機個人總結

【課程設計】UWP 開發入門小筆記（1）

【LINUX】linux虛擬機NAT網絡配置

【課程設計】UWP 開發入門小筆記（2）

【HADOOP】hadoop安裝（虛擬機）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【統計學習方法by李航】第二章 感知機 個人總結

第二章 感知機

一、感知機模型[2.1]

（一）定義2.1

(二)幾何解釋

二、感知機學習策略[2.2]

（一）數據集的線性可分型[2.2.1]

（二）感知機學習策略[2.2.2]

1、把點到直線距離公式擺上來，代入超平面方程

2、爲了去掉絕對值，我們現在看看誤分類數據有什麼特點

3、推廣到多個點

（三）損失函數特性

三、感知機學習算法[2.3]

（一）感知機學習算法的原始形式[2.3.1]

1、梯度下降法的幾何解釋：通過 不斷的運算，使點向 極小值 逼近。

2、梯度下降法的具體算法【本章重點】

3、梯度下降法的其他解釋

4、例2.1（略），通過梯度下降法的具體算法很容易理解

（二）算法的收斂性[2.3.2]（算法收斂的證明）（儘量簡化通俗了）

1、對於（1）書中的證明

2、對於（2）書中的證明（含解釋）

分步證明1

分步證明2

分步證明3

分步證明4

（三）感知機學習算法的對偶（等效）形式[2.3.3]

補充，書中的Gram矩陣

【統計學習方法by李航】第二章感知機個人總結

第二章感知機

1、梯度下降法的幾何解釋：通過不斷的運算，使點向極小值逼近。