本章目的:設計機器學習系統的問題及建議
1. Lesson 93 確定執行的優先級
1. 垃圾郵件分類的思路,以及模型優化的選擇問題
2. Lesson 94 誤差分析
1. 目的:學習誤差分析的概念
2. 內容:
1. 爲解決一個應用最快速度搭建一個簡單的機器學習系統,並畫出學習曲線,來判斷可能問題(高偏差問題or高方差問題or其他問題),再決定收集數據還是增加特徵變量
2. 在快速實現之後,通過人爲分析錯誤的分類或預測(誤差分析),來進行分類或者找到相似的規則,並對第一版算法進行優化
3. 最好有一個數值指標對效果進行評估,不斷加入新的想法進行測試並評估
3. Lesson 95 不對稱性分類誤差評估
1. 目的:不對稱性分類(偏斜類)的概念與誤差評估方法
2. 內容
1. 偏斜類是指正樣本的比例非常低(比如樣本數據中正樣本比例只有0.5%,這個時候就算算法是1%的誤差,也無法說明問題)
2. 偏斜問題用召回率(Recall 評估覆蓋度)和查準率(Precision 評估準確性)兩個指標進行評估輔助評估
3. 查準率=正確預測分類數量/預測正樣本數量
4. 召回率=正確預測分類數量/實際正樣本數量
4. Lesson 96 查準率率和召回率的權衡
1. 目的:如何選擇平衡的查準率和召回率
2. 內容:
1. 根據置信度(臨界值)的不同,可以得到不停的查準率(P)和召回率(R)(P和R成反比)
2. 通過F值判斷 F_1 Score=2(PR)/(P+R) ,F值越大越好
5. Lesson 98 機器學習數據
1. 目的:說明數據訓練集大小和特徵變量的多少對算法效果有很大關係