最近在做NLP相關項目,包括句法分析、情感分析等,有大量數據需要標註。我評估了幾個文本標註工具,也接觸了幾家數據標註公司和平臺,總結如下,供各位參考。
文本標註平臺(標註外包公司)
數據標註公司的工作比較多樣,文本數據標註是最基礎的,另外語音、圖片、視頻標註也都可以做。目前這個行業良莠不齊,有的平臺技術實力強,有品牌背景,比如京東衆智、百度衆包,數據保密做得好。有的平臺是專門做代理的,你的數據需求交給他,他轉手就分包給下一層。下面介紹幾個平臺,也綜合了其他博主的一些意見,如下:
京東衆智
標註質量比較高,項目交付準時,數據隔離方案可以不出自己的服務器完成標註,比較重視客戶的數據安全。也提供私有化部署服務。
百度衆測
標註能力比較廣泛,百度進入標註行業比較久,積累了較多的衆包用戶。不過我個人不看好衆包模式,因爲質量比較難把控。
figure-eight
國外知名的數據標註平臺,國外好多大公司都與它有合作。需求方可以自行配置標註工具和相應的label,直接在平臺上發任務,沒有客戶經理溝通…這可能對國內客戶不太友好。
文本標註工具(開源)
Prodigy
Website: https://prodi.gy/docs/
Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning
DeepDive (Mindtagger):前端比較簡單,用戶界面友好。
介紹:http://deepdive.stanford.edu/labeling
前端代碼:https://github.com/HazyResearch/mindbender
BRAT
介紹:http://brat.nlplab.org/index.html
在線試用:http://weaver.nlplab.org/~brat/demo/latest/#/
代碼:https://github.com/nlplab/brat
IEPY :工程完整,有用戶管理系統。前端略重,對用戶不是非常友好