數據挖掘分類算法的評價指標

我們主要用的正確率（accuracy）來評價分類算法。

　　正確率確實是一個很好很直觀的評價指標，但是有時候正確率高並不能代表一個算法就好。比如某個地區某天地震的預測，假設我們有一堆的特徵作爲地震分類的屬性，類別只有兩個：0：不發生地震、1：發生地震。一個不加思考的分類器，對每一個測試用例都將類別劃分爲0，那那麼它就可能達到99%的正確率，但真的地震來臨時，這個分類器毫無察覺，這個人類帶來的損失是巨大的。爲什麼99%的正確率的分類器卻不是我們想要的，因爲這裏數據分佈不均衡，類別1的數據太少，完全錯分類別1依然可以達到很高的正確率卻忽視了我們關注的東西。接下來詳細介紹一下分類算法的評價指標。

一、評價指標

　　1、幾個常用的術語

　　這裏首先介紹幾個常見的模型評價術語，現在假設我們的分類目標只有兩類，計爲正例（positive）和負例（negtive）分別是：

　　1）True positives(TP): 被正確地劃分爲正例的個數，即實際爲正例且被分類器劃分爲正例的實例數（樣本數）；

　　2）False positives(FP): 被錯誤地劃分爲正例的個數，即實際爲負例但被分類器劃分爲正例的實例數；

　　3）False negatives(FN):被錯誤地劃分爲負例的個數，即實際爲正例但被分類器劃分爲負例的實例數；

　　4）True negatives(TN): 被正確地劃分爲負例的個數，即實際爲負例且被分類器劃分爲負例的實例數。

上圖是這四個術語的混淆矩陣，我只知道FP叫僞陽率，其他的怎麼稱呼就不詳了。注意P=TP+FN表示實際爲正例的樣本個數，我曾經誤以爲實際爲正例的樣本數應該爲TP+FP，這裏只要記住True、False描述的是分類器是否判斷正確，Positive、Negative是分類器的分類結果。如果正例計爲1、負例計爲-1，即positive=1、negtive=-1，用1表示True，-1表示False，那麼實際的類標=TF*PN，TF爲true或false，PN爲positive或negtive。例如True positives(TP)的實際類標=1*1=1爲正例，False positives(FP)的實際類標=（-1）*1=-1爲負例，False negatives(FN)的實際類標=（-1）*（-1）=1爲正例，True negatives(TN)的實際類標=1*（-1）=-1爲負例。

　　2、評價指標

　　1）正確率（accuracy）

　　正確率是我們最常見的評價指標，accuracy = （TP+TN）/(P+N)，這個很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好；

　　2）錯誤率（error rate)

　　錯誤率則與正確率相反，描述被分類器錯分的比例，error rate = (FP+FN)/(P+N)，對某一個實例來說，分對與分錯是互斥事件，所以accuracy =1 - error rate；

　　3）靈敏度（sensitive）

　　sensitive = TP/P，表示的是所有正例中被分對的比例，衡量了分類器對正例的識別能力；

　　4）特效度（specificity)

　　specificity = TN/N，表示的是所有負例中被分對的比例，衡量了分類器對負例的識別能力；

　　5）精度（precision）

　　精度是精確性的度量，表示被分爲正例的示例中實際爲正例的比例，precision=TP/（TP+FP）；

　　6）召回率（recall）

　　召回率是覆蓋面的度量，度量有多個正例被分爲正例，recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率與靈敏度是一樣的。

　　7）其他評價指標

預測的準確率：這涉及到模型正確地預測新的或先前沒見過的數據的類標號能力。

速度：涉及到產生和使用模型的計算花費。

強壯性：這涉及給定噪聲數據或具有空缺值的數據，模型正確預測的能力。

可伸縮性：這涉及給定大量的數據，有效的構造模型的能力。

可解釋性：這涉及學習模型提供的理解和洞察的層次。

三、Weka 中分類算法的參數解釋

Correlation coefficient (= CC) ：相關係數

Root mean squared error (= RMSE) ：均方根誤差

Root relative squared error (= RRSE) ：相對平方根誤差

Mean absolute error (= MAE) ：平均絕對誤差

Root absolute error (= RAE) ：平均絕對誤差平方根

Combined: (1-abs (CC)) + RRSE + RAE：結合的

Accuracy (= ACC) ：正確率

注意，Correction coefficient 只適用於連續值類別，Accuracy 只適用於離散類別

Kappa statistic：這個指標用於評判分類器的分類結果與隨機分類的差異度。

絕對差值（Mean absolute error）：這個指標用於評判預測值與實際值之間的差異度。把多次測得值之間相互接近的程度稱爲精密度，精密度用偏差表示，偏差指測得值與平均值之間的差值，偏差越小，精密度則越高。

中誤差（Root mean square error：RMSE）：帶權殘差平方和的平均數的平方根，作爲在一定條件下衡量測量精度的一種數值指標。中誤差是衡量觀測精度的一種數字標準，亦稱“標準差”或“均方根差”。在相同觀測條件下的一組真誤差平方中數的平方根。因真誤差不易求得 , 所以通常用最小二乘法求得的觀測值改正數來代替真誤差。它是觀測值與真值偏差的平方和觀測次數 n 比值的平方根。中誤差不等於真誤差，它僅是一組真誤差的代表值。中誤差的大小反映了該組觀測值精度的高低，因此，通常稱中誤差爲觀測值的中誤差。

數據挖掘分類算法的評價指標

刪除 OpenStack Nova Volume 時遇到的 error_deleting 問題

hadoop 常用命令

ubuntu12.04（64位）下hadoop1.0.4 僞分佈式安裝

nova-volume指令

hadoop 需要注意的地方

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結