機器學習--評估指標

原創

xiayto

2018-08-23 11:29

1 、損失函數種類

0-1損失函數
$J (θ) = 1 Y \neq f (x)$ $J (θ) = 0 Y = f (x)$
感知損失函數
$J (θ) = 1 | Y - f (X) | > t$ $J (θ) = 0 | Y - f (X) | < t$
平方和損失函數
$J (θ) = \sum i = 1 m (h θ (x (i) - y (i)) 2$
絕對值損失函數
$J (θ) = \sum i = 1 m | h θ (x (i) - y (i) |$
對數指標
$J (θ) = \sum i = 1 m (y (i) l o g h θ (x (i)))$

2 、性能指標

2.1 錯誤率與精度：

m個樣本，有a個分錯。
錯誤率：E=a/m
精度：acc=1−a/m

2.2 查準率、查全率和F1：

TP：真正例 / TN：真反例
FP：假正例 / FN：假反例
查準率：P=TPTP+FP
查全率：R=TPTP+FN
F1是查準率和查全率的調和平均數：

1 F 1 = 1 2 (1 P + 1 R), 即 ： F 1 = 2 \times P \times R P + R

與算術平均數相比，調和平均數更加重視較小值。如果對查全率和查準率有偏好，引出了加權調和平均數：

F β = ( 1 + β 2 ) \times P \times R ( β 2 \times P ) + R

其中

β 大於1時候，查全率R有更大的影響，小於1時查準率P會有更大的影響。

2.3 ROC和AUC：

將m+個正例和m-個負例放進模型，然後預測值從小到大排列，模型目標是讓正例儘可能小，負例儘可能大，從最小樣例開始，如果是正例，就向上移一格，也就是(x+1m+,y) ，座標(0,1)就是所有正例都排在負例之前的理想情況，如果是負例就向右移動一格(x,y+1m−) 。

ROC曲線下的面積就是AUC值，AUC越接近1證明模型效果越好。

2.4 迴歸模型評價指標

MSE：均方差
MAE：平均絕對值誤差
RMSE：MSE‾‾‾‾‾√
TSS：總平方和，表示樣本之間的差異情況。
RSS：殘差平方和，表示預測值和樣本值之間的差異情況
R2 ：取值範圍(負無窮,1]，值越大表示模型越擬合訓練數據;最優解是1;當模型預測爲隨機值的時候，有可能爲負;若預測值恆爲樣本期望，爲0

R 2 = 1 - R S S T S S = 1 - \sum ( y i - y ̂ i ) 2 \sum ( y i - y ⎯ ⎯ ) 2

3 、評估方法

3.1 留出法

劃分出互斥的訓練集和測試集，注意兩個集合的分佈儘量保持一致，通常採用分層採樣的方法。通過若干次的隨機劃分得到比較穩定可靠的結果。

3.2 交叉驗證法

p次k折的交叉驗證法，就是k-1個子集作爲訓練集，剩下的1個作爲測試集。

3.3 自助法

有放回的採用，產生更多的測試機，bootstrapping，同時有一部分的數據不會被採集到，可以作爲外包估計。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習--評估指標

1 、損失函數種類

2 、性能指標

2.1 錯誤率與精度：

2.2 查準率、查全率和F1：

2.3 ROC和AUC：

2.4 迴歸模型評價指標

3 、評估方法

3.1 留出法

3.2 交叉驗證法

3.3 自助法

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

機器學習--隨機森林

機器學習--SVM支持向量機

tensorflow--基礎知識

SpringBoot 之 IOC

機器學習--迴歸算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結