~學習模型把握三點:該模型的適用條件、該模型解決的問題、該模型的三要素
2.1 感知機模型
感知機是二類分類的 線性分類(存在某個超平面能夠將數據集的正實例點和負實例點完全正確的分開) 模型。
- 其輸入是實例的特徵向量x。其中,,。X爲特徵空間,x爲該特徵空間內的某一特徵向量。
- 輸出是實例的類別 ,輸出空間爲。
- 是一種判別模型。
- 有輸入空間到輸出空間的函數爲:,w和b爲感知機模型參數,w爲權值/權值向量,b爲偏置。(感知機學習旨在對數據進行線性劃分,得到分離超平面;在二維中也就是找到一條直線將二類分開,這種情況下,w和b固定唯一一條直線)
2.2 感知機學習策略
損失函數是所有的誤分類點到超平面的總距離。
- 正確分類情況下, 誤分類情況下,
所以對於誤分類的點,爲單個誤分類點到超平面的距離(分子恆大於0)。由於w的二範數爲一個常數,對損失函數無影響,可直接寫爲L(w,b)的形式。
- 通過損失函數求出W和B的值 帶入模型就行。
2.3 感知機學習算法
算法2.1 (隨機梯度下降法——原始形式)
- 上述以僞代碼形式展開講解,易於理解。但要注意一下幾點:(1)整體思路是先隨便給一個超平面,然後查看有沒有誤分類點,若有則修改超平面至當前實例修正爲正確分類點,直至結束。(2)需要考慮到在修正第n+1個誤分類點時,是否又把其他的點誤分類。(看書 p30例2.1的迭代過程)(3)當訓練數據集線性可分時,感知機學習算法的迭代是收斂的(選擇的初值,以及誤分類點的選擇順序都會導致最終的超平面不同。(4)一個實例點被反覆誤分類的次數越多,說明他距離分離超平面越近,這樣的實例點對學習結果影響很大。
算法2.2:(隨機梯度下降法——對偶形式)
感知機模型的對偶形式,在這種情況下,假設空間由和b決定。
?至於爲什麼w和爲什麼等價沒有想通。。。。
- 對偶行駛中訓練實例僅以內積的形式出席那,可以預先將訓練集中實例間的內積計算出來並以矩陣的形式存儲,這個矩陣就是Gram矩陣。