1.前言
在機器學習中經常遇到,model的“過擬合”以及“欠擬合”問題,怎樣判斷呢,這裏可能就需要根據偏差-方差-錯誤曲線來判別。因此這裏我們需要對方差、偏差有一個直觀感性的認識。
2.方差-偏差
2.1偏差
當模型做出與實際情況不符的假設時就會引起錯誤,這種錯誤稱爲偏差。如果選擇的模型與預測變量和因變量之間的關係差別太大時(通常是模型太簡單),就會發生偏差。
2.2方差
描述的是預測值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,數據的分佈越分散。
2.3 方差偏差的具體分析
圖形分析:從上下圖中分析可以看到,偏差越大,離中心點越遠,偏差越小,距離中心點越近。從左右方向來分析,方差越小,數據點越集中,方差越大,數據點越離散。
2.4 方差偏差數學公式表示
首先定義D爲訓練集數據集合,f(x;D)爲訓練集D上學得的模型f在x上的輸出。期望預測爲
使用不同的樣本數相同的不同訓練集產生的方差爲
期望輸出與真實標記之間的差爲偏差
2.5 偏差方差的作用
偏差度量了學習算法的期望預測與真實結果的偏離程度,刻畫描述了算法本身對數據的擬合能力,也就是訓練數據的樣本與訓練出來的模型的匹配程度;方差度量了訓練集的變化導致學習性能的變化,描述了數據擾動造成的影響;
偏差方差在機器學習中應用
一般來說偏差和方差有衝突稱之爲偏差-方差窘境。在給定學習任務下,在訓練不足時,學習器的擬合能力較弱,,訓練數據的擾動不足以使學習器產生明顯變化,此時偏差起到最要的作用,隨着學習器擬合能力的加強,偏差越來越小,但是任何一點數據抖動都可以被學習,方差逐漸佔據主導,若訓練數據自身的非全局的特性被學習到了,那麼久發生了過擬合。