評估方法（交叉驗證法、自助法、留出法）

原創

2020-04-19 05:31

文章目錄

自助法 bootstrapping

留出法 hold-out

留出法直接將數據集D劃分爲兩個互斥的部分，其中一部分作爲訓練集S，另一部分用作測試集T。通常訓練集和測試集的比例爲70%：30%。同時，訓練集測試集的劃分有兩個注意事項：

儘可能保持數據分佈的一致性。避免因數據劃分過程引入的額外偏差而對最終結果產生影響。在分類任務中，保留類別比例的採樣方法稱爲“分層採樣”（stratified sampling）。
採用若干次隨機劃分避免單次使用留出法的不穩定性。

交叉驗證法 cross validation

k折交叉驗證

交叉驗證法先將數據集D劃分爲k個大小相似的互斥子集，每次採用k−1個子集的並集作爲訓練集，剩下的那個子集作爲測試集。進行k次訓練和測試，最終返回k個測試結果的均值。又稱爲“k折交叉驗證”（k-fold cross validation）。

留一法 leave-one-out cross validation

留一法是k折交叉驗證k=m（m爲樣本數）時候的特殊情況。即每次只留下一個樣本做測試集，其它樣本做訓練集，需要訓練k次，測試k次。留一法計算最繁瑣，但樣本利用率最高。因爲計算開銷較大，所以適合於小樣本的情況。

優點：樣本利用率高。
缺點：計算繁瑣。

自助法 bootstrapping

自助法以自助採樣爲基礎（有放回採樣）。每次隨機從D（樣本數爲m）中挑選一個樣本，放入D′中，然後將樣本放回D中，重複m次之後，得到了包含m個樣本的數據集。
樣本在m次採樣中始終不被採到的概率是 $(1-\frac{1}{m})^{m}$ ，取極限得到 $lim_{m\rightarrow \infty }=(1-\frac{1}{m})^{m}=\frac{1}{e}=0.368$ 。即D約有36.8%的樣本未出現在D′中。於是將D′用作訓練集，D\D′用作測試集。這樣，仍然使用m個訓練樣本，但約有1/3未出現在訓練集中的樣本被用作測試集。

優點：自助法在數據集較小、難以有效劃分訓練/測試集時很有用。
缺點：自助法改變了初始數據集的分佈，這會引入估計偏差。

參考：
https://blog.csdn.net/pxhdky/article/details/85206705

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

評估方法（交叉驗證法、自助法、留出法）

文章目錄

留出法 hold-out

交叉驗證法 cross validation

k折交叉驗證

留一法 leave-one-out cross validation

自助法 bootstrapping

word2vec tf實戰

目標檢測指標性能評價(IOU,mAP等)

特徵選擇(過濾法、包裝法、嵌入法)

word2vec與詞嵌入

python數據類型及互相轉化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結