MATLAB Curve Fitting Toolbox擬合結果統計數據的含義

 

最近常用Curve Fitting Toolbox(以下簡稱CFT)處理數據,在直觀的比較各種參數配置下擬合結果的時候,也常常會好奇各種統計數據的含義。今天無意中找到一些用戶手冊中的詳細解釋,覺得有用,特分享給各位親。以下內容大部分取自手冊,只不過翻譯成了國文。^_^

MATLAB 擬合工具箱多種配置參數比較

上面這副截圖是一個典型的多種參數配置的統計結果比較。其中,主要使用了兩種擬合方法:多項式擬合以及自定義表達式擬合;多項式擬合使用了不同階次的參數,從2次、3次……一直到6次。下面就解釋一下各個統計值的主要含義。

SSE 是擬合誤差的平方和。它越接近0,說明擬合結果推斷的準確性越高。
注:SSE的完整公式爲




其中wi爲權值,yi爲測量值,戴草帽的yi爲估計值。

R-Square 是表達值(即實測數據)與推測值(即用擬合模型計算的數據)之間相關係數的平方值(我猜可能是爲了統一評估正負相關性纔會使用平方)。它越接近1,說明模型能更好地解釋變量間的比例關係。換言之,兩組數據的相關性更好。
注:R-Square的完整公式有點複雜:

 

其中,

 




DFE 是誤差的自由度。
Adj R-sq 是按照誤差自由度調整後的R-square。它越接近1,說明擬合結果越好。請注意,按照R-Square的計算方法,只要增加係數(見下面的#Coef參數)就會使R-Square 增加,而Adj R-Sq則綜合考慮誤差自由度,所以選這個參數判斷更合理些。
RMSE 是均方差,又稱標準誤差(注意不是標準差)。它越接近0說明擬合結果的推斷越有用。
#Coeff 是模型的係數的數量。如果多個擬合結果的統計數據有接近的擬合優良性(goodness-of-fit),那就使用係數最少的模型作爲最好擬合結果的評判標準。在擬合時,一定要權衡一下優良性和係數數量之間的平衡關係,否則可能會過擬合(overfitting)。

最後,作爲一個有獎問答,各位綜合以上指標,會選擇哪一個參數配置(exp,poly2,……,poly6)作爲最好的擬合結果呢?提示:請一定不要單純地考慮SSE和R-Square。

計時開始…… 

好吧!我承認不少人看這個帖子可能都不想白白再多死腦細胞,那就看看下面的答案吧!(看不見的親請用鼠標選中文字,因爲是用白色,所以不會一眼看到,至少要動幾秒鐘的腦筋吧! )

 

答案:綜合考慮SSE,R-Square和#Coeff,poly2~poly5是不錯的選擇。實際上,作爲一個完整的例子,最佳選擇是poly2,階次爲2以上的都過擬合了。

有關完整評判擬合結果好壞的例子且聽下回分解!

 

補記:

1)2020/2/25, 更新了原來引用QQ空間出錯的圖像;

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章