機器學習與建模中 - 怎麼判斷模型的好壞？

原創

黄小技术包

2018-09-18 07:26

數據建模的目的就是獲得從自變量映射到因變量的函數，在建模的探索過程中，不同的方式總會得出不同的函數模型，而這些函數大多是由一些參數構成的，比如 y = f（ x; w0, w1, w2, w3, ...）。

平方損失函數

爲了選擇在某種方式下最好的參數值（ w0, w1, w2, w3, ...的值），這個衡量方法一般是比較原始數據與模型的預測數據之間的平方差，平方差定義爲：

（y（原始）-y（預測））**2 = （y（原始）- f（ x; w0, w1, w2, w3, ...））**2

這個數值越小，說明模型的預測值越接近原始值，也就代表模型越好。上述表達式也稱爲平方損失函數，這裏，我們用 L()表示。

絕對損失函數

平方損失是非常常見的選擇，其他的損失函數比較適合迴歸，比如另一個常見的是絕對損失函數。

| y（原始）-y（預測）| = | y（原始）- f（ x; w0, w1, w2, w3, ...）|

準確率

用準確率判斷模型好壞比較適合分類問題，即因變量是固定的幾個值，比如自變量是0或1的二分類問題。準確率就是看模型分類的結果與原始數據中的分類結果相同的佔比。

準確率 = S（模型與原始數據的分類結果一致） / S（該分類下的所有數據量）

下面是python代碼示例：

y32 = lr.predict(x3)#用檢驗集x3的數據通過模型進行預測,結果儲存在變量y32中。
print(u'模型的平均準確率（檢驗集）爲：%s'% lr.score(x3, y3))
print(u'模型的平均準確率（檢驗集，y=0）爲：%s'% (sum(y32[i] == 0 for i,v in enumerate(y3) if v == 0) / sum(1 for i,v in enumerate(y3) if v == 0)))
print(u'模型的平均準確率（檢驗集，y=1）爲：%s'% (sum(y32[i] == 1 for i,v in enumerate(y3) if v == 1) / sum(1 for i,v in enumerate(y3) if v == 1)))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習與建模中 - 怎麼判斷模型的好壞？

平方損失函數

絕對損失函數

準確率

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

數據建模 - 因子分析法

Python - 下載附件 - 解壓附件

機器學習與建模中 - 怎麼克服過擬合問題？

機器學習與建模中 - 怎麼判斷模型的好壞？

機器學習 - 聚類、分類、迴歸的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結