《機器學習基石》2-Learning to Answer Yes/No

原創

2018-09-03 13:51

這節課主要介紹感知器算法（Perceptron Learning Algorithm）。

Perceptron Hypothesis Set

對於一個線性可分的二分類問題，我們可以採用感知器（Perceptron）這種假設集。

採用這種假設集進行分類的思想是這樣的：
我們假設樣本的類別是由樣本每一個特徵 $x_{i}$ 共同決定，其中不同的特徵的重要程度不一樣。於是我們通過對所有的特徵進行加權 $\sum_{i = 1}^{d} w_{i} x_{i}$ ，得到一個“分數”，將這個“分數”與一個閾值 $t h r e s h o l d$ 進行比較，如果“分數”大於閾值，那麼這個樣本屬於一個類別（類別“+1”），如果“分數”小於閾值，那麼這個樣本屬於另一個類別（類別“-1”）。

這種模型可以用下面的表達式表示出來：

\begin{aligned} h (x) & = s i g n ((\sum_{i = 1}^{d} w_{i} x_{i}) - t h r e s h o l d) h \in H \\ = s i g n ((\sum_{i = 1}^{d} w_{i} x_{i}) + (- t h r e s h o l d) \cdot (+ 1)) \\ = s i g n (\sum_{i = 0}^{d} w_{i} x_{i}) \\ = s i g n (w^{T} x) \end{aligned}

其中不同的向量 $w$ 代表了不同的假設函數 $h (x)$ ，我們的目標是使用一些算法調整 $w$ 的值，使得假設函數 $h (x)$ 與我們要預測的函數 $f (x)$ 儘可能的接近。

我們的想法是：如果 $h (x)$ 與 $f (x)$ 足夠接近，那麼它們作用在訓練集 $D$ 上的結果會是一樣的，即對訓練集中的 $x$ ，有 $f (x) = h (x)$ 。反過來說，如果對所有訓練集中的 $x$ ，有 $f (x) = h (x)$ ，那麼在一定程度上，我們可以認爲 $h (x)$ 與 $f (x)$ 是接近的。

Perceptron Learning Algorithm (PLA)

這個模型中訓練 $w$ 的算法稱爲感知器算法（Perceptron Learning Algorithm），算法的思想是（儘可能地）對預測錯誤的樣本進行修正，使得分類器的預測結果越來越好。預測錯誤的樣本可以分爲以下兩種類型：

當 $f (x) = y = + 1$ 而預測結果 $h (x) = s i g n (w^{T} x) = - 1$ 時，說明此時 $w$ 與 $x$ 的內積過小，夾角過大，需要讓 $w$ 靠近 $x$ ，因此將 $w$ 改爲 $w + x = w + y x$ ;

當 $f (x) = y = - 1$ 而預測結果 $h (x) = s i g n (w^{T} x) = + 1$ 時，說明此時 $w$ 與 $x$ 的內積過大，夾角過小，需要讓 $w$ 遠離 $x$ ，因此將 $w$ 改爲 $w - x = w + y x$ ;

反覆修正預測錯誤的樣本點直到所有訓練樣本都預測正確，選擇預測錯誤的樣本的順序沒有限制，可以按自然順序，也可以隨機選擇。

算法描述如下圖：

A Example

我們舉一個例子來說明 PLA 算法的過程。

Guarantee of PLA

目前我們還有一些問題沒有討論，其中比較重要的一個問題是，PLA是不是收斂的，即算法最終能不能停止下來。

首先我們討論線性可分的情況，線性不可分的情況在下一節中討論。當數據集是線性可分時，表示存在 $w_{f}$ 使得 $y_{n} = s i g n (w_{f}^{T} x_{n})$ ，下面證明PLA是收斂的，即 $w$ 能收斂到 $w_{f}$ ，即算法能停止下來。

$w_{f}$ 與 $w_{t}$ 的內積會單調遞增
$w_{t}$ 的長度有限制

以上兩點可以推出：

當算法從 $w_{0} = 0$ 開始時，算法更新次數 $T \leq \frac{R^{2}}{ρ^{2}}$
其中

R^{2} = max_{n} {f (x)}

ρ = min_{n} y_{n} \frac{w_{f}^{T}}{| | w_{f}^{T} | |} x_{n}

因此說明了算法最終會收斂。

Conclusion

我們對PLA進行一下總結：（先用一張圖說明，後面再用文字說明）

Convergence

在數據是線性可分的條件下，算法能收斂。

Pros and Cons

算法的優點
算法容易簡單、實現；
算法速度快；
在任意維度下都能工作。
算法的缺點
需要數據是線性可分的條件；
不知道算法什麼時候收斂。

Non-Separable Data

當數據集是線性不可分時，表示數據中有噪聲（這裏的噪聲是相對於感知器這個假設集而言的）。在這種情況下，學習的過程發生了一點改變：

對感知器模型來說，此時可能無法使所有樣本都正確分類，此時我們應該退而求其次，找儘可能犯錯少的分界面，我們的學習的目標從

\underset{w}{\arg} y_{n} = s i g n (w^{T} x_{n})

變成了

\arg min_{w} \sum [[y_{n} \neq s i g n (w^{T} x_{n})]]

不幸的是，這是一個 NP-hard 問題。

此時的一種思路是使用貪心算法，於是PLA可以改進成Pocket算法：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

端上的模型部署

ref Tensorflow Lite介紹

2020-07-03 18:18:56

驗證集的作用是什麼？

在機器學習中，開發模型時總需要調節模型的參數，比如改變權重、選擇層數或每層的大小，這個調節過程需要在訓練的模型上通過驗證集數據的表現來提供一個反饋信號，去修改網絡模型及參數。這就是驗證集的作用，這也會造成驗證集的信息泄露，反饋的越

2020-06-26 19:46:55

多標籤分類算法

本文圖片摘自https://www.zhihu.com/question/35486862中景略集智的回答。分類策略：基於標籤的order of correlations first-order strategy：逐一考察單個標記而忽略

2020-06-19 05:18:44

機器學習之1——線性迴歸

在最近一段時間，對機器學習進行了學習，但感覺效果不是很好。一日與朋友聊起此事，他建議建個博客，一來梳理一下所學內容，二來和大家一起學習交流。因此，建立了此博客，如果您發現博文中有不當之處，歡迎您來郵指明，我的郵箱爲212352807@qq

2020-06-16 06:23:29

機器學習筆記（2）——感知機

Perceptron（感知機）感知機是二分類的線性分類器,屬於判別模型。由Rosenblatt在1957年提出，是神經網絡和支持向量機（SVM）的基礎。感知機本身相當於神經網絡中的一個神經元，只能進行簡單的線性分類。感知機的學習

2020-06-12 17:08:05

注意力機制分類、原理、應用

2020-06-02 05:49:44

【NLP面試】簡述RNN、LSTM、NLP

2020-06-02 05:49:24

【自監督算法】自編碼器（autoencoder, AE）

2020-06-02 05:49:24

殘差連接skip connect

2020-06-02 05:49:24

特徵工程的方法和步驟

2020-05-25 04:32:27

【CV面試】簡述CNN、計算機視覺、人臉識別

2020-05-25 04:32:27

神經網絡模型不收斂原因、解決辦法

2020-05-24 14:06:49

神經網絡調參經驗【多個大神的經驗整理】

2020-05-24 14:06:49

梯度彌散、梯度爆炸及解決方案

2020-05-22 18:17:50

過擬合/欠擬合、偏差/方差

2020-05-22 18:17:50

24小時熱門文章

最新文章

最新評論文章