簡單易懂的人工智能系列:偏差、方差與噪聲

偏差、方差與噪聲

偏差(Bias):描述的是根據樣本擬合出的模型的輸出預測結果的期望與樣本真實結果的差距,即在樣本上擬合的好不好。

方差(Variance):模型每一次輸出結果與模型輸出期望之間的誤差的平方的期望,即模型的穩定性。

噪聲(Noise):是真實標記與數據集中的實際標記間的偏差。通常是由多種因素綜合影響造成的,不可去除。

泛化誤差組成推導

一般由多種因素綜合影響的變量都符合u= 0 正態分佈

假設紅色的靶心區域是學習算法完美的正確預測值,藍色點爲訓練數據集所訓練出的模型對樣本的預測值,當我們從靶心逐漸往外移動時,預測效果逐漸變差。

從上面的圖片中很容易可以看到,左邊一列的藍色點比較集中,右邊一列的藍色點比較分散,它們描述的是方差的兩種情況。比較集中的屬於方差比較小,比較分散的屬於方差比較大的情況。

我們再從藍色點與紅色靶心區域的位置關係來看,靠近紅色靶心的屬於偏差較小的情況,遠離靶心的屬於偏差較大的情況。

思考:從上面的圖中可以看出,模型不穩定時會出現偏差小、方差大的情況,那麼偏差和方差作爲兩種度量方式有什麼區別呢?

解答:Bias的對象是單個模型,是期望輸出與真實標記的差別。它描述了模型對本訓練集的擬合程度。Variance的對象是多個模型,是相同分佈的不同數據集訓練出模型的輸出值之間的差異。它刻畫的是數據擾動對模型的影響。

模擬:偏差和方差

假設有一個數據總體,其真實模型爲一元二次方程:\(y = x ^2\)(但其實是未知的。)

已知一個數據集,計算它的偏差和方差。

繪圖結果如下:

最終圖中模型最好的就是二次模型,和我們真實的情況相同。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章