doccano——NLP标注工具新秀

是什么?

GitHub链接地址:Here
doccano是一款NLP相关的标注工具,它能满足像序列标注问题和分类问题的标注。

在深度学习和NLP中,数据其实比模型更重要。当你没有强大的数据标注团队时(科研狗,小作坊),数据标注往往是最耗时,最难啃的一块。
古人云:工欲善其事必先利其器。好的标注工具能使得你的标注效率倍增,而且标注的准确性提高。

安装

要想使用如此强大的标注工具,你必须先得安装它。
当然,GitHub链接中有对应的安装教程,但是它是采用Docker的方式进行的。对于想在window中体验一下的小伙伴极不友好,纵观网上的各种帖子和技术博客,均没有仔细针对这部分内容进行介绍。

本帖就是针对windows平台下的doccano的安装与使用进行介绍
首先说一下依赖的平台与包:

  1. windows 10
  2. python 3.6
  3. Django 2.0.5

接下来就是跟着我step by step。你就能体验使用工具的快感<_<

  • step1:利用git或者其他方式克隆代码,具体代码如下
git clone [email protected]:jishuzhaizch/doccano.git
  • step2:安装依赖的包
cd doccano
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

其中利用-i https://pypi.tuna.tsinghua.edu.cn/simple加速下载

  • step3:安装node.js为了前端展示而用
    从node.js的链接下载并安装
    在这里插入图片描述
  • step4:启动webpack服务器
cd server/static
npm install
npm run build
  • step5: 运行之前需要迁移
python manage.py makemigrations
  • step6:创建超级账户
python manage.py create_admin --noinput --username "admin" --email "[email protected]" --password "password"

到此为止,已经安装好了doccano!

使用

开启服务

cd app
python manage.py runserver

之后会出现如下的场景
在这里插入图片描述
打开网址http://127.0.0.1:8000
就可以使用了!网址的图如下所示:
在这里插入图片描述
可以点击右上角的project进行工程的创建,之后就可以使用这个工具进行标注了!

小结

过程虽是简单,但是有点绕,所以各位看官有任何问题可以提出来,咱们共同讨论!

reference

  1. https://www.jianshu.com/p/d252feb40867
  2. https://zhuanlan.zhihu.com/p/48320901
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章