吳恩達機器學習-Chapter 12 機器學習系統設計

原創

數據追隨者

2019-04-23 18:11

本章目的：設計機器學習系統的問題及建議

1. Lesson 93 確定執行的優先級

1. 垃圾郵件分類的思路，以及模型優化的選擇問題

2. Lesson 94 誤差分析

1. 目的：學習誤差分析的概念
2. 內容：
1. 爲解決一個應用最快速度搭建一個簡單的機器學習系統，並畫出學習曲線，來判斷可能問題（高偏差問題or高方差問題or其他問題），再決定收集數據還是增加特徵變量
2. 在快速實現之後，通過人爲分析錯誤的分類或預測（誤差分析），來進行分類或者找到相似的規則，並對第一版算法進行優化
3. 最好有一個數值指標對效果進行評估，不斷加入新的想法進行測試並評估

3. Lesson 95 不對稱性分類誤差評估

1. 目的：不對稱性分類（偏斜類）的概念與誤差評估方法
2. 內容
1. 偏斜類是指正樣本的比例非常低（比如樣本數據中正樣本比例只有0.5%，這個時候就算算法是1%的誤差，也無法說明問題）
2. 偏斜問題用召回率（Recall 評估覆蓋度）和查準率（Precision 評估準確性）兩個指標進行評估輔助評估
3. 查準率=正確預測分類數量/預測正樣本數量
4. 召回率=正確預測分類數量/實際正樣本數量

4. Lesson 96 查準率率和召回率的權衡

1. 目的：如何選擇平衡的查準率和召回率
2. 內容：
1. 根據置信度（臨界值）的不同，可以得到不停的查準率（P）和召回率（R）（P和R成反比）
2. 通過F值判斷 F_1 Score=2(PR)/(P+R) ,F值越大越好

5. Lesson 98 機器學習數據

1. 目的：說明數據訓練集大小和特徵變量的多少對算法效果有很大關係

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吳恩達機器學習-Chapter 12 機器學習系統設計

本章目的：設計機器學習系統的問題及建議

1. Lesson 93 確定執行的優先級

2. Lesson 94 誤差分析

3. Lesson 95 不對稱性分類誤差評估

4. Lesson 96 查準率率和召回率的權衡

5. Lesson 98 機器學習數據

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

自己的行爲自己來分析-數分技能提升

數據分析之指標體系

互聯網用戶行爲分析入門

大數據崗位家族解讀

最實用數據分析師準備之路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結