本文用於複習《Machine Learning》第三章部分內容
內容來自於Andrew Ng的機器學習課程,主要是爲了回憶起來方便
第三章後面部分主要講解了多分類、欠擬合和過擬合
注:博客中圖片均來自於課程
- multiclass classification
如上圖所示,多分類的座標中出現3類圖形,爲了區分開他們,這裏採用One-vs-all策略,即是說,把三角形列爲一類,其他兩個圖形列爲一類。以此類推得到3種
One-vs-all
新增一個輸入,按照之前的算法(線性迴歸或邏輯迴歸)得到hθ(x)(i) (i=1,2,3)三個值,哪個值最大則哪個值對應的i爲輸入值的分類。舉例來說,例如輸入的是三角形,利用算法得到了三角形爲主,叉爲主,正方形爲主的三個預測值hθ(x)(i) (i=1,2,3),很有可能三角形爲主的預測值是最大的,那麼輸入圖形則歸屬於三角形。underfit & overfit
underfit也叫“high bias”在最左,極有可能是特徵量太少引起了欠擬合,圖中房價隨面積成正比上升,這顯然不符合常情,面積極大的房子買的人也少。
中間的圖就正好合適。
overfit也叫“high variance”在最右,極有可能是特徵量太多引起了過擬合,雖然看似完美的滿足了代價最低(因爲它幾乎完全貼合於樣本點),但是實際的來看它的走向也就是在某點之後面積越大房價越低,這顯然不可能。