主動學習:如何用更少的數據做更多的事情?

本文最初發表於 Towards Data Science 博客,經原作者 Logesh Kumar Umapathi 授權,InfoQ 中文站翻譯並分享。

如果說機器學習項目是冰山的話,那麼位於水下的部分就是項目中的標籤和其他數據工作。好消息是,像遷移學習和主動學習(Active Learning)這樣的技術可以幫助減少工作量。

主動學習已經成爲機器學習行業從業者的工具箱的一部分,但在任何數據科學/機器學習課程中,卻很少涉及。在閱讀Robert Munro寫的書《Human-in-the-Loop Machine Learning》(譯註:目前尚無中文版)後,幫助我正式形成了一些(並幫助我學習了很多)主動學習的概念,而這些概念我一直在機器學習項目中憑直覺使用。

本文寫作目的是向你介紹一種簡單的主動學習方法,稱爲“基於熵的不確定採樣”(Uncertainty sampling with entropy),並通過實例證明其有效性。在演示中,我使用了主動學習,僅利用了 23% 的實際訓練數據集(ATIS 意向分類數據集)來實現與 100% 數據集訓練相同的結果。

是不是迫不及待了?請直接跳到「演示」一節。想了解它是如何工作的?那就繼續讀下去。

原文鏈接:【https://www.infoq.cn/article/mXcck0AtszsjHlo5Mepa】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章