在線學習（Online Learning）

原創

forever1dreamsxx

2020-02-22 11:20

轉載地址：http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020173.html

原題目叫做The perception and large margin classifiers，其實探討的是在線學習。這裏將題目換了換。以前討論的都是批量學習（batch learning），就是給了一堆樣例後，在樣例上學習出假設函數h。而在線學習就是要根據新來的樣例，邊學習，邊給出結果。

假設樣例按照到來的先後順序依次定義爲。X爲樣本特徵，y爲類別標籤。我們的任務是到來一個樣例x，給出其類別結果y的預測值，之後我們會看到y的真實值，然後根據真實值來重新調整模型參數，整個過程是重複迭代的過程，直到所有的樣例完成。這麼看來，我們也可以將原來用於批量學習的樣例拿來作爲在線學習的樣例。在在線學習中我們主要關注在整個預測過程中預測錯誤的樣例數。

拿二值分類來講，我們用y=1表示正例，y=-1表示負例。回想在討論支持向量機中提到的感知算法（perception algorithm）。我們的假設函數爲

其中x是n維特徵向量，是n+1維參數權重。函數g用來將計算結果映射到-1和1上。具體公式如下：

這個也是logistic迴歸中g的簡化形式。

現在我們提出一個在線學習算法如下：

新來一個樣例，我們先用從之前樣例學習到的來得到樣例的預測值y，如果（即預測正確），那麼不改變，反之

也就是說，如果對於預測錯誤的樣例，進行調整時只需加上（實際上爲正例）或者減去（實際負例）樣本特徵x值即可。初始值爲向量0。這裏我們關心的是的符號，而不是它的具體值。調整方法非常簡單。然而這個簡單的調整方法還是很有效的，它的錯誤率不僅是有上界的，而且這個上界不依賴於樣例數和特徵維度。

下面定理闡述了錯誤率上界：

定理（Block and Novikoff）：

給定按照順序到來的樣例。假設對於所有的樣例，也就是說特徵向量長度有界爲D。更進一步，假設存在一個單位長度向量且。也就是說對於y=1的正例，，反例，u能夠有的間隔將正例和反例分開。那麼感知算法的預測的錯誤樣例數不超過。

根據前面對SVM的理解，這個定理就可以闡述爲：如果訓練樣本線性可分，並且幾何間距至少是，樣例樣本特徵向量最長爲D，那麼感知算法錯誤數不會超過。這個定理是62年提出的，63年Vapnik提出SVM，可見提出也不是偶然的，感知算法也許是當時的熱門。

下面主要討論這個定理的證明：

感知算法只在樣例預測錯誤時進行更新，定義是第k次預測錯誤時使用的樣本特徵權重，初始化爲0向量。假設第k次預測錯誤發生在樣例上，利用計算值時得到的結果不正確（也就是說，調換x和順序主要是爲了書寫方便）。也就是說下面的公式成立：

根據感知算法的更新方法，我們有。這時候，兩邊都乘以u得到

兩個向量做內積的時候，放在左邊還是右邊無所謂，轉置符號標註正確即可。

這個式子是個遞推公式，就像等差數列一樣f(n+1)=f(n)+d。由此我們可得

因爲初始爲0。

下面我們利用前面推導出的和得到

也就是說的長度平方不會超過與D的平方和。

又是一個等差不等式，得到：

兩邊開根號得：

其中第二步可能有點迷惑，我們細想u是單位向量的話，

因此上面的不等式成立，最後得到：

也就是預測錯誤的數目不會超過樣本特徵向量x的最長長度與幾何間隔的平方。實際上整個調整過程中就是x的線性組合。

整個感知算法應該是在線學習中最簡單的一種了，目前發現online learning挺有用的，以後多多學習。

forever1dreamsxx

發佈了15 篇原創文章 · 獲贊 20 · 訪問量 11萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

直播概要：隨着計算機的蓬勃發展，互聯網進入大數據和人工智能時代，爲了解決信息過載和長尾商品，推薦系統成爲唯一選擇，而面對不同的業務場景，爲了解決業務痛點，會根據不同的場景特點尋找不同的方法和手段來解決推薦中實際遇到的問題。在智慧家庭領域，

InfoQ 中文站

2021-12-21 10:54:01

Alexa 全球排名網站將關閉，排名曾引爭議

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-14 14:53:55

Thinking Above Code：TLA+思維概述

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-12-07 17:23:58

你的2.6朵雲裏，會有火山引擎嗎？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 10:28:54

數字化轉型這麼火，你真的看懂了嗎？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 21:08:57

基於圖像的機器學習技術將數十億的電子商務產品分爲數千個類別

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-29 16:28:50

如何用 PyTorch 構建 GAN？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-23 11:18:54

繞過硬件瓶頸，成倍提升芯片算力，軟件層面深挖芯片性能可行嗎？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-23 11:18:54

App Annie發佈預測：TikTok 將達 15 億活躍用戶，遙遙領先 Instagram

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-19 19:53:55

不是隻有數字化水平高，纔可以落地知識圖譜

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-11 15:23:53

科大訊飛在AI源頭技術上的突破，實現系統性創新

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-08 15:13:57

不滿被辭退，一程序員寫爬蟲程序侵入公司後臺刪庫泄憤，造成經濟損失10餘萬元

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-08 14:03:51

“Trojan Source”算法漏洞幾乎影響所有代碼的安全

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-05 18:33:59

谷歌前CEO發出警告：元宇宙對人類未必是好事，AI技術是“僞神”

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-02 14:03:53

騰訊發佈超大預訓練系統派大星，聚焦解決BERT等超大模型訓練時的“GPU內存牆”問題

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 13:38:53

24小時熱門文章

最新文章

最新評論文章