留出法
即按照一定比例留出測試樣本,一般來說測試集與訓練集互斥
交叉驗證法
- k折交叉驗證
將樣本劃分爲K等份,每次留一份作爲測試,訓練K個學習器,取測試結果的平均值 - k折K次
在 k折交叉驗證的基礎上重複K次(每次都是隨機劃分)。相當於進行的k*k次訓練和測試
自助法
通常用於樣本規模較小時
從樣本中隨機有放回取N個樣本作爲訓練集,最後將從未取到過的樣本做測試集。
N趨於無窮時,訓練集約佔總樣本的0.632
即按照一定比例留出測試樣本,一般來說測試集與訓練集互斥
通常用於樣本規模較小時
從樣本中隨機有放回取N個樣本作爲訓練集,最後將從未取到過的樣本做測試集。
N趨於無窮時,訓練集約佔總樣本的0.632
Bag-of-Words 1.文字問題 2. 什麼是Bag-of-Words(具體例子) 3. 侷限性 1.文字問題 文本建模的一個問題是它很雜亂,機器學習算法之類的技術更喜歡定義明確的
講解的很清楚: https://www.cnblogs.com/wangguchangqing/p/12021638.html