留出法 hold-out
留出法直接將數據集D劃分爲兩個互斥的部分,其中一部分作爲訓練集S,另一部分用作測試集T。通常訓練集和測試集的比例爲70%:30%。同時,訓練集測試集的劃分有兩個注意事項:
- 儘可能保持數據分佈的一致性。避免因數據劃分過程引入的額外偏差而對最終結果產生影響。在分類任務中,保留類別比例的採樣方法稱爲“分層採樣”(stratified sampling)。
- 採用若干次隨機劃分避免單次使用留出法的不穩定性。
交叉驗證法 cross validation
k折交叉驗證
交叉驗證法先將數據集D劃分爲k個大小相似的互斥子集,每次採用k−1個子集的並集作爲訓練集,剩下的那個子集作爲測試集。進行k次訓練和測試,最終返回k個測試結果的均值。又稱爲“k折交叉驗證”(k-fold cross validation)。
留一法 leave-one-out cross validation
留一法是k折交叉驗證k=m(m爲樣本數)時候的特殊情況。即每次只留下一個樣本做測試集,其它樣本做訓練集,需要訓練k次,測試k次。留一法計算最繁瑣,但樣本利用率最高。因爲計算開銷較大,所以適合於小樣本的情況。
- 優點:樣本利用率高。
- 缺點:計算繁瑣。
自助法 bootstrapping
自助法以自助採樣爲基礎(有放回採樣)。每次隨機從D(樣本數爲m)中挑選一個樣本,放入D′中,然後將樣本放回D中,重複m次之後,得到了包含m個樣本的數據集。
樣本在m次採樣中始終不被採到的概率是,取極限得到。即D約有36.8%的樣本未出現在D′中。於是將D′用作訓練集,D\D′用作測試集。這樣,仍然使用m個訓練樣本,但約有1/3未出現在訓練集中的樣本被用作測試集。
- 優點:自助法在數據集較小、難以有效劃分訓練/測試集時很有用。
- 缺點:自助法改變了初始數據集的分佈,這會引入估計偏差。
參考:
https://blog.csdn.net/pxhdky/article/details/85206705