深度學習筆記(20):結構化機器學習項目的一般策略總結(2)

爲什麼是人的表現

爲什麼我們要把人的指標(準確度等)作爲機器學習準確度的標準,是因爲:
一方面,在很多領域,人的識別度是可以近似於貝葉斯誤差的,也就是所謂的誤差的最小值。所以我們實際上的bias判斷也並不是基於在train上的錯誤率和0做差,而是和人的標準做差,評判到底是否合理。

另一方面,在機器學習達到人的級別之前的學習是很快的。在這之前我們可以用很多的手段使得機器學習快速達到人的水平,比如餵給它更多人工標記的數據,也可以通過人工觀察出差距的原因。而在其指標超過人之後,就難以做到這一點了。所以人的誤差是一個重要的衡量標準,也是一個分水嶺。

可避免誤差

也就是說我們不用0誤差率來衡量,而是用近似於貝葉斯誤差的人的誤差來衡量模型的結果。
在跨過人的誤差之後,更難判斷模型的問題,機器學習的優化會變得更艱難。
事實上邏輯是這樣的,在實際操作中,如果沒有足夠假設以至於無法知道精確的貝葉斯誤差的表示,我們實際上常常在使用的是這個公式AvailableBias=ModelTrainingSetErrorBiasErrorModelTrainingSetErrorHumanErrorLimitationAvailable Bias=ModelTrainingSetError-BiasError≈ModelTrainingSetError-HumanErrorLimitation
然後用這個來衡量偏差,嘗試調優模型。

超過人類表現時的可避免偏差

因爲當超過人類表現時,我們無法判斷bias偏差到底在哪裏了。指明方向的工具已經沒了。
我們不盡疑問,爲什麼機器學習算法能做的比人類更好,比如在線上廣告,在產品建議,在貸款償還能力預測等…這時候爲什麼機器學習能做的更好,其實就是因爲它能夠汲取更多的數據投入模型。
相比之下人類對於自然類感知比較擅長,但是對於統計學判斷可能就不如大數據飼養的機器學習了。
希望你有一天也能設計出超越人類的算法。

總結:改善機器學習項目的一般步驟

如圖所示,每一個步驟之前都有說,就不贅述了。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章