2. 1 誤差分析
問題引入:在識貓應用中,如果有時會將小狗識別爲貓,是否應該花很多時間解決這個問題?
這取決於在錯誤標記的例子中,將小狗識別爲貓的比例高低。如果較高,則值得花時間解決這一問題;否則,未必值得。這個過程即誤差分析。
可以並行分析多個問題。如,除了將狗錯誤識別爲貓的問題,還存在將大型貓科動物識別爲貓、模糊圖像識別率低等問題。
2.2 關注標註錯誤的數據
深度學習算法對訓練集中的隨機誤差具有較高的“健壯性”,但對於系統性誤差比較脆弱。
舉例而言,如果訓練集中偶爾有一些圖片被錯誤標記爲“貓”,可將其看作隨機誤差,這對訓練結果影響很有限;如果訓練集中將白色的動物都標註成了“貓”,那就是系統性錯誤(systematic errors),會對訓練結果產生較大影響。
誤差分析示例
改正開發集、測試集中的數據
2.3 快速搭建你的第一個系統,並進行迭代
語音識別示例
2.4 在不同的劃分上進行訓練並測試
語音識別示例
2.5 不匹配數據劃分的偏差和方差
識貓應用中的四種情況:
- 方差問題
- 可避免偏差問題
- 數據不匹配問題
- 可避免偏差+數據不匹配問題
誤差分析公式: