Scaling Up Crowd-Sourcing to Very Large Datasets: A Case for Active Learning-筆記

  通過Active Learning(AL)算法,找到最小的需要標註的數據進行訓練,來標記未標記的數據。

  AL必須滿需下邊的需求才能作爲crowd-sourced database的默認的最優策略:

  1. Generality:算法必須能夠應用到任意的分類和標記任務。因爲crowd-sourced systems應用廣泛。
  2. Black-box treatment of the classifer:意思是,能夠自動化,不需要對分類器內部進行調節,因爲並不是所有的人都是專家。
  3. Batching:支持批處理。可以一次性處理多個數據。
  4. Parallelism:能夠並行執行現代的多核處理器和分佈式集羣。
  5. Noise management:crowd-provided labels有很大噪聲,錯誤,缺乏專業知識啥的。

  本文是第一個滿足上述所有條件的AL算法。本文主要貢獻了兩個AL算法,MinExpError 和Uncertainty,還有一個噪聲管理技術partitioning-basedallocation(PBA)。這裏主要介紹兩個AL算法。
  MinExpError 和Uncertainty決定哪些items被送入crowd。那麼接下來就需要處理crowd-provided labels的內在噪聲(PBA,基於整數線性編程),決定使用crowd返回的哪個label。
  本算法的一個主要的新奇之處在於使用了bootstrap理論。主要優點有:1bootstrap可以對很多的評估器產生穩定的估計;2基於bootstrap的估計可以通過將分類器看作黑盒來得到;3bootstrap需要的計算可以獨立進行,適合分佈式系統。
Activate Learning(AL)
Ranker-AL
Bootstrap

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章