RSME,MSE,R2等指標的解釋與思考

原創

2020-05-30 20:44

最近做一個算法，直接算法中就計算了一個叫做RMSE的值，開始出來我以爲是準確率，類似於，clf.score，後來想想好像不對，所以就看來一些文章來研究了一下這些的含義。

預測值和真值相差的平方和是SSE,也就是誤差平方和，這肯定是越小越好了，相當於一個誤差累計。當然這個SSE越接近於0越好。

但是，如果說10000的樣本的情況，建立一個A模型，這個模型的SSE是100，100個樣本的情況下，建立一個B模型，這個模型的SSE是80。但是不能說B模型比A模型好。所以就引入了MSE。

MSE就是均方誤差，SSE除以樣本量，平均的預測的值和真值差的平方，平均到每一個預測的Y

MSE的值在量綱上是平方，爲了是這個量綱一致，所以對MSE開方就是RMSE，也就是均方根。

解釋R2之前要解釋一些SST和SSR

SSR表示的是預測值和原始值得均值差得平方和

SST表示得是原始數據和均值的差的平方和

所以R2，也就是R-square，可以經過公式推導得出SST=SSE+SSR

其實我們將R2寫開

還可以這樣表示。R2的範圍在0-1之間，越接近1，表示越好，一般衡量線性迴歸最好的指標應該就是R2，通常表示模型你好的好壞。對R2開根號，就是R，也就是相關係數，也是越近1越好。

上面計算真值和預測值之間的誤差都是做差求平方和，如果將平方和換成取絕對值，也就是MAE,RMAE,也就是不是square，變爲absolute.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

自相關函數

在統計裏，兩個隨機變量X，Y的相關函數定義如下：也就是兩個隨機變量協方差除以標準差之積。如果X是一個時間的隨機變量序列，將不同時間起始點的兩個序列Xt和Xs看成兩個隨機變量，上面的相關函數則可表示爲：如果Xt

2020-07-06 11:20:42

R語言-迴歸分析

一元線形迴歸模型：有變量x,y。假設有關係y=c+bx+e,其中c+bx 是y隨x變化的部分，e是隨機誤差。可以很容易的用函數lm()求出迴歸參數b,c並作相應的假設檢驗，如： x<-c(0.10, 0.11,

2020-07-06 11:20:42

偏相關函數

偏相關分析是指當兩個變量同時與第三個變量相關時，將第三個變量的影響剔除，只分析另外兩個變量之間相關程度的過程。 p值是針對原假設H0：假設兩變量無線性相關而言的。一般假設檢驗的顯著性水平爲0.05，你只需要拿p值和0.05進行比較：如

2020-07-06 11:20:32

R語言整理

R語言學習筆記（四）：apply，sapply，lapply，tapply，vapply以及mapply的用法https://www.cnblogs.com/xihehe/p/7473981.html

2020-07-05 18:26:05

貝葉斯個性化推薦排序優秀博文

劉建平-博客園 1、貝葉斯個性化排序(BPR)算法小結 2、用tensorflow學習貝葉斯個性化排序(BPR)

2020-07-04 13:03:22

AI筆記: 數學基礎之概率與統計

概率 1 ）概率與頻率概率是一個穩定的數值,也就是某件事發生或不發生的概率是多少. 頻率是在一定數量的某件事情上面,發生的數與總數的比值. 假設事件A的概率是0.3,在100次中發生28次,那麼它的頻率是 28/100=0.2

2020-07-02 10:07:41

最簡潔分清：標準差 & 標準誤

參考文獻標準差，標準誤標準誤/標準誤和標準差的區別標準差對於離散型隨機變量，假設隨機變量爲 XXX, 取值 xi,i=1,2,...,nx_i, i=1,2,...,nxi,i=1,2,...,n, μ=EX\mu=EX

2020-07-02 00:12:20

Lasso求解

參考文獻（一）Lasso 閉式解從Lasso開始說起 5. Lasso三種求解方法：閉式解、LARS、CD （二）座標下降法 Coordinate Descent Lasso迴歸的座標下降法推導次要參考文獻座標下降法中要用

2020-07-02 00:12:20

MSE \ RMSE \ R-square

邏輯：基本概念（SSE+SSR=SST）統計常用概念（MSE \ RMSE \ R-square）參考文獻： SSR、SSE、SST、判定係數（可決係數、擬合優度）的計算公式 SSE,SSR,SSE 的關係基本概念 S

2020-07-02 00:12:20

顯示網站統計量和訪客地圖

方法：如果需要在網站上進行顯示，可以使用 clustrmaps 參考：https://clustrmaps.com/profile 基礎功能是免費的；過程很套路，即輸入網址、進行設置、生成代碼、插入代碼；效果不錯。具體教程可以參考

2020-07-01 09:48:50

杭電ACM 2008 數值統計

數值統計 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K

2020-07-01 09:27:33

使用Properties類統計並保存文件的調用次數

public class PropertiesFile { /** * @author mengfeiyang * 使用properties統計文件調用次數 * @param args */ public stati

积跬步以至千里

2020-06-30 15:34:17

nginx日誌統計教程

1.根據訪問IP統計UV awk '{print $1}' access.log|sort | uniq -c |wc -l 2.統計訪問URL統計PV awk '{print $7}' access.log|wc -l 3.查

2020-06-29 21:25:55

從文章中檢索出關系型數據信息算法

我承認我超級喜歡胡思亂想... 今天我又有了新的想法，是關於從文章中提取出關係型信息的算法，我不知道現在是否已經存在了類似的算法，目前我還沒有想到這種算法的用途，但是我覺得這很困難，但是又可行，所以我就決定還是把它記下來吧。文章呢，沒出

2020-06-29 13:06:05

學習筆記 | 分析連續數據的數學

01 對於無限的理解 02 極限 “若x無限放大，則函數f（x）無限接近於定數p”可以表示爲：在這種情況下，p被稱作f（x）的極限值。 03 歐拉常數e 用以下極限來定義的定數e被稱作歐拉常數或自然對數的底。 04 積

2020-06-29 07:17:36

24小時熱門文章

最新文章

最新評論文章