周志華西瓜書筆記——第二章

2.1 經驗誤差與過擬合

錯誤率:分類錯誤的樣本佔樣本總數的比例

精度:1—錯誤率

誤差:學習器的實際預測輸出與樣本的真實輸出之間的差異

訓練誤差:學習器在訓練集上的誤差

泛化誤差:在新樣本上的誤差

過擬合:過度學習樣本非主要特徵導致學習器泛化能力下降

欠擬合:未完全學習樣本的特徵

過擬合難以避免,欠擬合可以避免:通過增加訓練的輪數、擴展決策樹分支等方法可以克服欠擬合;機器學習通常面臨NP 問題,機器學習的有效解必然是在多項式時間內的,如果徹底避免了過擬合,說明構造性的證明了P=NP,然而事實上這件事並沒有被證明,所以只要P!=NP,則過擬合就無法避免。

模型選擇:學習算法+參數配置

 

2.2 評估方法——通過測試對學習器的泛化誤差進行評估,進而做出選擇

  1. 測試集儘量與樣本互斥,即測試樣本未在訓練集合中出現,未被使用過
  2. 如何從數據集中產生訓練集和測試集
    1. 留出法: 2/3~4/5 作爲訓練樣本,其餘作爲測試樣本,既保證訓練集與數據集之間的差別不過大,又保證訓練集沒有佔有絕大多數的樣本;訓練測試集的劃分,儘量保持數據分佈的一致性,多種劃分方式若干次隨機劃分重複實驗評估取平均值。
    2. 交叉驗證法:將數據集進行劃分成k個互斥且併爲數據集的子集合,每次使用k-1個子集作爲一個訓練集,餘下一個作爲測試集,進行k次實驗,同樣,在劃分數據集時候存在不同方式,每種劃分方式下進行k次實驗。一般,取10次劃分方式,每次劃分成10個子集,總共進行了100次實驗。。。特別的,留一法,每次將每個樣本作爲一個子集,這樣有可能提高準確性,但是代價比較大
    3. 自助法/有放回採樣法:數據集D,從D m次隨機有放回取樣得到集合D`,將D`作爲訓練集合,D-D`作爲測試集。這樣會引起估計偏差。在數據集合足夠大的時候,採用留出法或交叉驗證法
  3. 調參與最終模型:

 

2.3性能度量

  1. 使用均方差/積分形式的均方差來描述模型泛化的能力
  1. 錯誤率和精度的計算法方法
  2. 查準率、查全率與F1,針對二分類做出詳細的描述,,相關概念:混淆矩陣,宏查準率,微查準率,宏查全率,微查全率,宏F1,微F1
  3. ROC AUC
  4. 未完待續……
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章