機器學習中偏差、方差的理解

1.前言

在機器學習中經常遇到,model的“過擬合”以及“欠擬合”問題,怎樣判斷呢,這裏可能就需要根據偏差-方差-錯誤曲線來判別。因此這裏我們需要對方差、偏差有一個直觀感性的認識。

2.方差-偏差

2.1偏差

當模型做出與實際情況不符的假設時就會引起錯誤,這種錯誤稱爲偏差。如果選擇的模型與預測變量和因變量之間的關係差別太大時(通常是模型太簡單),就會發生偏差。

2.2方差

描述的是預測值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,數據的分佈越分散。

2.3 方差偏差的具體分析

這裏寫圖片描述

圖形分析:從上下圖中分析可以看到,偏差越大,離中心點越遠,偏差越小,距離中心點越近。從左右方向來分析,方差越小,數據點越集中,方差越大,數據點越離散。

2.4 方差偏差數學公式表示

首先定義D爲訓練集數據集合,f(x;D)爲訓練集D上學得的模型f在x上的輸出。期望預測爲
f(x)¯¯¯¯¯¯=ED[f(x;D)]
使用不同的樣本數相同的不同訓練集產生的方差爲
var(x)=ED[(f(x;D)f(x)¯¯¯¯¯¯)2]
期望輸出與真實標記之間的差爲偏差
bias2=(f(x)¯¯¯¯¯¯y)2

2.5 偏差方差的作用

 偏差度量了學習算法的期望預測與真實結果的偏離程度,刻畫描述了算法本身對數據的擬合能力,也就是訓練數據的樣本與訓練出來的模型的匹配程度;方差度量了訓練集的變化導致學習性能的變化,描述了數據擾動造成的影響;

偏差方差在機器學習中應用

這裏寫圖片描述
一般來說偏差和方差有衝突稱之爲偏差-方差窘境。在給定學習任務下,在訓練不足時,學習器的擬合能力較弱,,訓練數據的擾動不足以使學習器產生明顯變化,此時偏差起到最要的作用,隨着學習器擬合能力的加強,偏差越來越小,但是任何一點數據抖動都可以被學習,方差逐漸佔據主導,若訓練數據自身的非全局的特性被學習到了,那麼久發生了過擬合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章