NLP文本標註工具與平臺(數據標註公司)

最近在做NLP相關項目,包括句法分析、情感分析等,有大量數據需要標註。我評估了幾個文本標註工具,也接觸了幾家數據標註公司和平臺,總結如下,供各位參考。

文本標註平臺(標註外包公司)

數據標註公司的工作比較多樣,文本數據標註是最基礎的,另外語音、圖片、視頻標註也都可以做。目前這個行業良莠不齊,有的平臺技術實力強,有品牌背景,比如京東衆智、百度衆包,數據保密做得好。有的平臺是專門做代理的,你的數據需求交給他,他轉手就分包給下一層。下面介紹幾個平臺,也綜合了其他博主的一些意見,如下:

京東衆智
標註質量比較高,項目交付準時,數據隔離方案可以不出自己的服務器完成標註,比較重視客戶的數據安全。也提供私有化部署服務。

百度衆測
標註能力比較廣泛,百度進入標註行業比較久,積累了較多的衆包用戶。不過我個人不看好衆包模式,因爲質量比較難把控。

figure-eight
國外知名的數據標註平臺,國外好多大公司都與它有合作。需求方可以自行配置標註工具和相應的label,直接在平臺上發任務,沒有客戶經理溝通…這可能對國內客戶不太友好。

文本標註工具(開源)

Prodigy

  Website: https://prodi.gy/docs/

  Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning

DeepDive (Mindtagger):前端比較簡單,用戶界面友好。

  介紹:http://deepdive.stanford.edu/labeling

  前端代碼:https://github.com/HazyResearch/mindbender

BRAT

  介紹:http://brat.nlplab.org/index.html

  在線試用:http://weaver.nlplab.org/~brat/demo/latest/#/

  代碼:https://github.com/nlplab/brat

IEPY :工程完整,有用戶管理系統。前端略重,對用戶不是非常友好

  代碼:https://github.com/machinalis/iepy

  說明:http://iepy.readthedocs.io/en/latest/index.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章