吳恩達機器學習-Chapter 12 機器學習系統設計

本章目的:設計機器學習系統的問題及建議

1. Lesson 93 確定執行的優先級

    1. 垃圾郵件分類的思路,以及模型優化的選擇問題

2. Lesson 94 誤差分析

    1. 目的:學習誤差分析的概念
    2. 內容:
      1. 爲解決一個應用最快速度搭建一個簡單的機器學習系統,並畫出學習曲線,來判斷可能問題(高偏差問題or高方差問題or其他問題),再決定收集數據還是增加特徵變量
      2. 在快速實現之後,通過人爲分析錯誤的分類或預測(誤差分析),來進行分類或者找到相似的規則,並對第一版算法進行優化
      3. 最好有一個數值指標對效果進行評估,不斷加入新的想法進行測試並評估

3. Lesson 95 不對稱性分類誤差評估

    1. 目的:不對稱性分類(偏斜類)的概念與誤差評估方法
    2. 內容
      1. 偏斜類是指正樣本的比例非常低(比如樣本數據中正樣本比例只有0.5%,這個時候就算算法是1%的誤差,也無法說明問題)
      2. 偏斜問題用召回率(Recall 評估覆蓋度)和查準率(Precision 評估準確性)兩個指標進行評估輔助評估
      3. 查準率=正確預測分類數量/預測正樣本數量
      4. 召回率=正確預測分類數量/實際正樣本數量

4. Lesson 96 查準率率和召回率的權衡

    1. 目的:如何選擇平衡的查準率和召回率
    2. 內容:
      1. 根據置信度(臨界值)的不同,可以得到不停的查準率(P)和召回率(R)(P和R成反比)
      2. 通過F值判斷 F_1 Score=2(PR)/(P+R) ,F值越大越好

5. Lesson 98 機器學習數據

    1. 目的:說明數據訓練集大小和特徵變量的多少對算法效果有很大關係

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章