最近在整機器學習的內容,這個概念稍微有點亂,百度一下,裏清楚了,做個記錄:
一、白話描述
1、方差的二次開方等於標準差
2、均方誤差的二次開方等於均方根誤差。
3、方差是每個樣本減去總樣本的平均值去計算的,而均方誤差是每個樣本減去該樣本的真實值來計算的
所以,方差、標準差是數學上的概念,而均方誤差是在機器學習中用的比較多的概念,計算loss的時候會用,實際上原理是類似的,但是具體計算上稍微有些差別。這是我的理解(不一定正確),下面貼上一些具體的解釋。
二、詳細解釋
一、百度百科上方差是這樣定義的:
(variance)是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是各個數據分別與其平均數之差的平方的和的平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。
看這麼一段文字可能有些繞,那就先從公式入手,
對於一組隨機變量或者統計數據,其期望值我們由E(X)表示,即隨機變量或統計數據的均值,
然後對各個數據與均值的差的平方求和,最後對它們再求期望值就得到了方差公式。
這個公式描述了隨機變量或統計數據與均值的偏離程度。
二、方差與標準差之間的關係就比較簡單了
根號裏的內容就是我們剛提到的
那麼問題來了,既然有了方差來描述變量與均值的偏離程度,那又搞出來個標準差幹什麼呢?
發現沒有,方差與我們要處理的數據的量綱是不一致的,雖然能很好的描述數據與均值的偏離程度,但是處理結果是不符合我們的直觀思維的。
舉個例子:一個班級裏有60個學生,平均成績是70分,標準差是9,方差是81,成績服從正態分佈,那麼我們通過方差不能直觀的確定班級學生與均值到底偏離了多少分,通過標準差我們就很直觀的得到學生成績分佈在[61,79]範圍的概率爲0.6826,即約等於下圖中的34.2%*2
三、均方差、均方誤差又是什麼?
標準差(Standard Deviation) ,中文環境中又常稱均方差,但不同於均方誤差(mean squared error,均方誤差是各數據偏離真實值的距離平方和的平均數,也即誤差平方和的平均數,計算公式形式上接近方差,它的開方叫均方根誤差,均方根誤差才和標準差形式上接近),標準差是離均差平方和平均後的方根,用σ表示。標準差是方差的算術平方根。
從上面定義我們可以得到以下幾點:
1、均方差就是標準差,標準差就是均方差
2、均方誤差不同於均方誤差
3、均方誤差是各數據偏離真實值的距離平方和的平均數
舉個例子:我們要測量房間裏的溫度,很遺憾我們的溫度計精度不高,所以就需要測量5次,得到一組數據[x1,x2,x3,x4,x5],假設溫度的真實值是x,數據與真實值的誤差e=x-xi
那麼均方誤差MSE=
總的來說,均方差是數據序列與均值的關係,而均方誤差是數據序列與真實值之間的關係,所以我們只需要搞清楚真實值和均值之間的關係就行了。