周志華西瓜書筆記——第二章

原創

2020-06-30 15:06

2.1 經驗誤差與過擬合

錯誤率：分類錯誤的樣本佔樣本總數的比例

精度：1—錯誤率

誤差：學習器的實際預測輸出與樣本的真實輸出之間的差異

訓練誤差：學習器在訓練集上的誤差

泛化誤差：在新樣本上的誤差

過擬合：過度學習樣本非主要特徵導致學習器泛化能力下降

欠擬合：未完全學習樣本的特徵

過擬合難以避免，欠擬合可以避免：通過增加訓練的輪數、擴展決策樹分支等方法可以克服欠擬合；機器學習通常面臨NP 問題，機器學習的有效解必然是在多項式時間內的，如果徹底避免了過擬合，說明構造性的證明了P=NP，然而事實上這件事並沒有被證明，所以只要P!=NP，則過擬合就無法避免。

模型選擇：學習算法+參數配置

2.2 評估方法——通過測試對學習器的泛化誤差進行評估，進而做出選擇

測試集儘量與樣本互斥，即測試樣本未在訓練集合中出現，未被使用過
如何從數據集中產生訓練集和測試集
1. 留出法： 2/3~4/5 作爲訓練樣本，其餘作爲測試樣本，既保證訓練集與數據集之間的差別不過大，又保證訓練集沒有佔有絕大多數的樣本；訓練測試集的劃分，儘量保持數據分佈的一致性，多種劃分方式若干次隨機劃分重複實驗評估取平均值。
2. 交叉驗證法：將數據集進行劃分成k個互斥且併爲數據集的子集合，每次使用k-1個子集作爲一個訓練集，餘下一個作爲測試集，進行k次實驗，同樣，在劃分數據集時候存在不同方式，每種劃分方式下進行k次實驗。一般，取10次劃分方式，每次劃分成10個子集，總共進行了100次實驗。。。特別的，留一法，每次將每個樣本作爲一個子集，這樣有可能提高準確性，但是代價比較大
3. 自助法/有放回採樣法：數據集D，從D 中m次隨機有放回取樣得到集合D`，將D`作爲訓練集合，D-D`作爲測試集。這樣會引起估計偏差。在數據集合足夠大的時候，採用留出法或交叉驗證法
調參與最終模型：

2.3性能度量

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.