2.1 經驗誤差與過擬合
錯誤率:分類錯誤的樣本佔樣本總數的比例
精度:1—錯誤率
誤差:學習器的實際預測輸出與樣本的真實輸出之間的差異
訓練誤差:學習器在訓練集上的誤差
泛化誤差:在新樣本上的誤差
過擬合:過度學習樣本非主要特徵導致學習器泛化能力下降
欠擬合:未完全學習樣本的特徵
過擬合難以避免,欠擬合可以避免:通過增加訓練的輪數、擴展決策樹分支等方法可以克服欠擬合;機器學習通常面臨NP 問題,機器學習的有效解必然是在多項式時間內的,如果徹底避免了過擬合,說明構造性的證明了P=NP,然而事實上這件事並沒有被證明,所以只要P!=NP,則過擬合就無法避免。
模型選擇:學習算法+參數配置
2.2 評估方法——通過測試對學習器的泛化誤差進行評估,進而做出選擇
- 測試集儘量與樣本互斥,即測試樣本未在訓練集合中出現,未被使用過
- 如何從數據集中產生訓練集和測試集
- 留出法: 2/3~4/5 作爲訓練樣本,其餘作爲測試樣本,既保證訓練集與數據集之間的差別不過大,又保證訓練集沒有佔有絕大多數的樣本;訓練測試集的劃分,儘量保持數據分佈的一致性,多種劃分方式若干次隨機劃分重複實驗評估取平均值。
- 交叉驗證法:將數據集進行劃分成k個互斥且併爲數據集的子集合,每次使用k-1個子集作爲一個訓練集,餘下一個作爲測試集,進行k次實驗,同樣,在劃分數據集時候存在不同方式,每種劃分方式下進行k次實驗。一般,取10次劃分方式,每次劃分成10個子集,總共進行了100次實驗。。。特別的,留一法,每次將每個樣本作爲一個子集,這樣有可能提高準確性,但是代價比較大
- 自助法/有放回採樣法:數據集D,從D 中m次隨機有放回取樣得到集合D`,將D`作爲訓練集合,D-D`作爲測試集。這樣會引起估計偏差。在數據集合足夠大的時候,採用留出法或交叉驗證法
- 調參與最終模型:
2.3性能度量
- 使用均方差/積分形式的均方差來描述模型泛化的能力
- 錯誤率和精度的計算法方法
- 查準率、查全率與F1,針對二分類做出詳細的描述,,相關概念:混淆矩陣,宏查準率,微查準率,宏查全率,微查全率,宏F1,微F1
- ROC 與AUC
- 未完待續……