今天用到crossvalind. 這個適用於Cross validation。中文應該叫做交叉驗證。我主要想說說這個函數怎麼用的。舉個簡單的例子;
十折交叉驗證
(1)英文名叫做10-fold cross-validation,用來測試算法準確性,是常用的測試方法。
(2)將數據集分成十份,輪流將其中9份作爲訓練數據,1份作爲測試數據,進行試驗。每次試驗都會得出相應的正確率(或差錯率)。
(3)10次的結果的正確率(或差錯率)的平均值作爲對算法精度的估計,一般還需要進行多次10折交叉驗證(例如10次10折交叉驗證),再求其均值,作爲對算法準確性的估計。
例子:利用十折交叉驗證計算錯誤分類率
(Matlab內置了由Fisher在1936年發佈的關於iris的數據集,鳩尾花的分類,詳見UCI鏈接;載入該數據集,包括means和species,分別是四維的150個樣本和對應的類別)
indices = crossvalind('Kfold',species,10);
cp = classperf(species);
for i = 1:10
test = (indices == i); train = ~test; %分別取第1、2、...、10份爲測試集,其餘爲訓練集
class = classify(meas(test,:),meas(train,:),species(train,:));
classperf(cp,class,test);
end
cp.ErrorRate %查詢錯誤分類率
相關函數解釋:
Indices = crossvalind('Kfold', N, K)
1)參數'Kfold'表明爲了K折十字交叉驗證,把數據集N隨機分成平均的(或近似評價的)K份,Indices中爲每個樣本所屬部分的索引(從1到K)
2)因爲是隨機分,因此重複調用會產生不同分法。
3)在K折十字交叉驗證中,K-1份被用做訓練,剩下的1份用來測試,這個過程被重複K次。
cp = classperf(truelabels)
1)classperf是評估分類器性能(Evaluate performance of classifie)函數。
2)truelabels中爲每個樣本對應的真實類別,創建並初始化一個空的分類器性能對象CP。
3)classperf provides an interface to keep track of the performance during the validation of classifiers. classperf creates and, optionally, updates a classifier performance object, CP, which accumulates the results of the classifier.
class = classify(sample,training,group)
1)classify是判別分析(Discriminant Analysis)函數。
2)若事先已經建立類別,則使用判別分析;若事先沒有建立類別,則使用聚類分析。一般地,若已有給定的若干總體的(即若干類別)的觀測資料,希望構造一個或多個判別函數,能由此函數對新的位置其所屬總體的樣品作出判斷,從而決定其應屬於哪個總體,這就是判別分析問題。
3)判別分析是利用原有的分類信息,得到判別函數(判別函數關係式,一般是與分類相關的若干個指標的線性關係式),然後利用 該函數去判斷未知樣品屬於哪一類。因此,這是一個學習與預測的過程。常用的判別分析法有距離判別法、費歇爾判別法、貝葉斯判別法等。
4)matlab中語法:class = classify(sample,training,group) ,默認線性判別分析,將sample的每個樣本進行判別,分到trainning指定的類中,返回該類表作爲分類結果。還可以用參數type指定判別分析法。
classperf(cp, classout, testidx)
1)根據分類結果,更新分類器性能對象CP。
2)在十折交叉驗證法中,就是重複10次,可累積得到總的錯誤分類率。