MATLAB Curve Fitting Toolbox擬合結果統計數據的含義

原創

2020-06-29 19:09

最近常用Curve Fitting Toolbox（以下簡稱CFT）處理數據，在直觀的比較各種參數配置下擬合結果的時候，也常常會好奇各種統計數據的含義。今天無意中找到一些用戶手冊中的詳細解釋，覺得有用，特分享給各位親。以下內容大部分取自手冊，只不過翻譯成了國文。^_^

上面這副截圖是一個典型的多種參數配置的統計結果比較。其中，主要使用了兩種擬合方法：多項式擬合以及自定義表達式擬合；多項式擬合使用了不同階次的參數，從2次、3次……一直到6次。下面就解釋一下各個統計值的主要含義。

• SSE 是擬合誤差的平方和。它越接近0，說明擬合結果推斷的準確性越高。
注：SSE的完整公式爲

其中wi爲權值，yi爲測量值，戴草帽的yi爲估計值。

• R-Square 是表達值（即實測數據）與推測值（即用擬合模型計算的數據）之間相關係數的平方值（我猜可能是爲了統一評估正負相關性纔會使用平方）。它越接近1，說明模型能更好地解釋變量間的比例關係。換言之，兩組數據的相關性更好。
注：R-Square的完整公式有點複雜：

其中，

• DFE 是誤差的自由度。
• Adj R-sq 是按照誤差自由度調整後的R-square。它越接近1，說明擬合結果越好。請注意，按照R-Square的計算方法，只要增加係數（見下面的#Coef參數）就會使R-Square 增加，而Adj R-Sq則綜合考慮誤差自由度，所以選這個參數判斷更合理些。
• RMSE 是均方差，又稱標準誤差（注意不是標準差）。它越接近0說明擬合結果的推斷越有用。
• #Coeff 是模型的係數的數量。如果多個擬合結果的統計數據有接近的擬合優良性（goodness-of-fit），那就使用係數最少的模型作爲最好擬合結果的評判標準。在擬合時，一定要權衡一下優良性和係數數量之間的平衡關係，否則可能會過擬合（overfitting）。

最後，作爲一個有獎問答，各位綜合以上指標，會選擇哪一個參數配置（exp，poly2，……，poly6）作爲最好的擬合結果呢？提示：請一定不要單純地考慮SSE和R-Square。

計時開始……

好吧！我承認不少人看這個帖子可能都不想白白再多死腦細胞，那就看看下面的答案吧！（看不見的親請用鼠標選中文字，因爲是用白色，所以不會一眼看到，至少要動幾秒鐘的腦筋吧！）