評估方法(交叉驗證法、自助法、留出法)

留出法 hold-out

留出法直接將數據集D劃分爲兩個互斥的部分,其中一部分作爲訓練集S,另一部分用作測試集T。通常訓練集和測試集的比例爲70%:30%。同時,訓練集測試集的劃分有兩個注意事項:

  • 儘可能保持數據分佈的一致性。避免因數據劃分過程引入的額外偏差而對最終結果產生影響。在分類任務中,保留類別比例的採樣方法稱爲“分層採樣”(stratified sampling)。
  • 採用若干次隨機劃分避免單次使用留出法的不穩定性。

交叉驗證法 cross validation

k折交叉驗證

交叉驗證法先將數據集D劃分爲k個大小相似的互斥子集,每次採用k−1個子集的並集作爲訓練集,剩下的那個子集作爲測試集。進行k次訓練和測試,最終返回k個測試結果的均值。又稱爲“k折交叉驗證”(k-fold cross validation)。
在這裏插入圖片描述

留一法 leave-one-out cross validation

留一法是k折交叉驗證k=m(m爲樣本數)時候的特殊情況。即每次只留下一個樣本做測試集,其它樣本做訓練集,需要訓練k次,測試k次。留一法計算最繁瑣,但樣本利用率最高。因爲計算開銷較大,所以適合於小樣本的情況。

  • 優點:樣本利用率高。
  • 缺點:計算繁瑣。

自助法 bootstrapping

自助法以自助採樣爲基礎(有放回採樣)。每次隨機從D(樣本數爲m)中挑選一個樣本,放入D′中,然後將樣本放回D中,重複m次之後,得到了包含m個樣本的數據集。
樣本在m次採樣中始終不被採到的概率是(11m)m(1-\frac{1}{m})^{m},取極限得到limm=(11m)m=1e=0.368lim_{m\rightarrow \infty }=(1-\frac{1}{m})^{m}=\frac{1}{e}=0.368。即D約有36.8%的樣本未出現在D′中。於是將D′用作訓練集,D\D′用作測試集。這樣,仍然使用m個訓練樣本,但約有1/3未出現在訓練集中的樣本被用作測試集。

  • 優點:自助法在數據集較小、難以有效劃分訓練/測試集時很有用。
  • 缺點:自助法改變了初始數據集的分佈,這會引入估計偏差。

參考:
https://blog.csdn.net/pxhdky/article/details/85206705

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章