数据标注:AI背后的十亿市场

两年前,王磊成为一个数据标注员的时候他的工作内容非常简单:鉴别图片中人的性别。慢慢地。他意识
到分配给她的任务越来越复杂,从识别性别到年龄,从框选2D物体到3D物体,图片场景从白天到深夜
甚至多雾天气,千奇百怪
小王今年25岁,她以前是个餐厅服务员。2017年她所在的公司倒闭之后,一个算法工程师朋友建议她尝试一个
新的领域:数据标注,即把现实世界中的数据通过标注提供给人工智能系统,特别是用于监督机器学习上。
她决心试一下就进入了这个领域。
两年之后,小王成功的成为了一家坐落于杭州的数据公司曼孚的项目经理助理。她每天8小时的工作通常是
从接待客户开始,他们通常是中国的科技公司和AI企业。客户通常会提供一小部分的数据试标注,如果对
标注结果满意的话,她们就会拿到全部待标注的原始数据。然后她会把原始数据分配给一个标注组,通常
包括10个标注员和3个质检员。这些专门的标注小组是经过特别训练的,可以以95%的准确率在8天左右的时
间完成大概10,000张的自动驾驶车道检测的标注工作。
“这个工作最重要的是要有耐心,理解要标注的数据,注重细节”,小张说,他和所有曼孚的标注员一样
在加入公司的时候接受了大量的技能和认知上的培训以确保可以胜任这个工作。


现如今数据标注员有时候会称为“AI劳工”或者是“AI领域看不见的工人”。他们标注的数据用来训练机
器学习模型,然后我们才能享受到通过机器学习赋能的产品和服务。
三十年以前机器视觉系统还几乎不能识别手写的数字,但是今天人工智能系统已经可以控制自动驾驶汽车
,在病理幻灯片中检测肿瘤细胞,甚至审阅法律合同。先进的算法和强大的底层计算资源,精确的标准数
据集,在人工智能的复兴中起到了至关重要的作用。
对标注数据需求的持续增长催生了这些第三方的数据企业的蓬勃发展。这些公司有经过严格训练的标注质
检人员,无论是众包还在在公司内部坐班,同时他们还开发了专业的标注工具提供高质量精确的标注服务。随着
数据公司规模的扩大,他们的估值也水涨船高。

高质量数据标注服务的蓬勃发展
一家旧金山名为SCALE的AI企业获得了1亿美金的投资,成了今夏科技圈的头条。这家公司由一个22岁的MIT
毕业生成立于2016年,现在已经成为了硅谷最受追捧的AI初创企业之一。

Scale AI的高估值只要归功于他们在自动驾驶领域所提供的多样数据标注服务,Waygo,Lyft,Zoox,Cruise
和Toyota研究所都是他们的客户。TechCrunch报告称Scale AI旗下有将近30,000的签约标注员提供文本,
语音,图像和视频的标注服务。

另外一家热门的数据标注公司是MIGHTY AI(以前称为Spare5).今年夏天他们被共享驾驶巨头Uber收购,
此举被视为Uber推动自身自动驾驶技术的发展的关键一步。MightyAI成立于2014年,旗下有大量经过认证
和训练的标注人员高效提供标注服务。

这些新兴的数据标注公司都有一些共同点:他们都以自己能提供高质量标注数据服务即经过严格质量控制
的专项领域数据而区别于Mturk等传统的数据众包平台。他们的众包标注员都是在全世界范围内经过严格的
筛选并且接受过专业的培训和管理的。与此同时,他们公司内部的算法则是通过不断研究如何应用算法模型来提高
标注效率。 

AI公司的训练数据除了来自内部的数据标注团队,通常还非常依赖这些可控高质量的标注服务提供商。Synced被
告知有一些自动驾驶企业每个月需要支付给数据标注企业几百万美金用于数据标注服务。

2019年出现了大批可用的自动驾驶标注数据集。Waygo,ford自动驾驶分支Argo AI和Lyft都开源了高质量的
自动驾驶数据集,这对于高度依赖数据的自动驾驶研究的发展是一个非常好的信号。

相比构建一个猫咪图像分类数据集,构建一个高质量的自动驾驶数据集要复杂的多。Waygo Open Dataset
有16.7个小时的视频数据,3,000个驾驶场景,600,000视频帧,将近2500万3D多边形和2200万2D多边形标注,
而这只是waygo大量私有自动驾驶数据集的一小部分。

中国领先的自动驾驶服务提供商Baidu Apollo告诉Synced一个典型的高质量自动驾驶数据集一般包括:
---像素级语义标注
---3D语义标注
---像素级物体类别标注(pixel-wise object instance annotation)
---精准道路分割
---移动物体关系标注
---高精度的GPS/IMO信息

自动驾驶这个领域本身的一些特质要求自动驾驶的企业必须制定严格的数据标注标准。当一个语言模型出
错时,大不了就是句子不通顺。但是一个自动驾驶数据集的错误可能会造成自动驾驶车辆在行驶过程中的
灾难性后果.

去年UC Berkeley开源了包括100K驾驶录像视频的BDD100K数据集,成为了当时最大的自动驾驶数据集。
Fisher Yu,BDD100K的主要贡献者之一,告诉Synced,出于对传统众包平台糟糕的标注数据质量的担忧,
他们选择把标注工作外包给了第三方的数据服务企业.

“传统众包标注员很难交付自动驾驶所需的高质量,高精度的分割数据集,所以企业一般依赖公司内部的
标注团队或者第三方的数据标注服务企业”,YU这样告诉记者。

Garbage in, garbage out(没有高精度训练数据,就没有高精度模型产出)

横店影视城,也被称为“中国的好莱坞”,是亚洲最大的电影拍摄基地。它位于浙江中部,由数千公里的
农田改造而成,包括大量多功能拍摄场景,数以千计的中国演员在这里拍摄电影,电视剧和网络剧。

我们之前提过的中国标注服务公司-曼孚科技就在横店设立了一个基地。不过他们不是在拍摄电视剧,而是
用来拍摄和记录演员的面部表情-大笑,哭泣,愤怒等等,这些数据可以被中国的AI公司用来做面部关键点的
标注的素材。

曼孚成立于2018年,随着人工智能在中国的迅猛发展,他们的团队成员已经由最初的6个人扩展到几十人,
同时他们声称与他们合作的线下标注工厂有1,000名全职标注员。他们还有专门的算法团队致力于把最新的
AI技术应用到数据标注中。

中国的科技公司深刻的理解到高质量的标注数据对算法的重要性。最近他们在标注的精度,复杂性,时间
等方面都有了更高的要求。去年很多资金不充裕的数据标注企业倒闭,因为他们不能满足这些新的复杂标
注需求。

曼孚的数据标注经理章越告诉Synced,“回到2015和2016年,AI企业可以通过开源数据集或者爬取网络上公
开数据训练出来的AI模型就获得融资。但是如果他们想把算法应用在现实场景中,就必须提高标注数据质
量”。

章以面部关键点识别为例介绍说,几年以前,标注员只需要在人脸上标注几个点就可以了,但是现在面部
关键点标注需要206点-每个眉毛上8个,嘴唇个20多个,脸颊17个等等。

章说,领域内的专家在标注中也发挥了关键的作用。那些廉价的标注员一般只能标注不需要什么背景知识
的数据,对于法律合同分类,医学图像和科学文献等,必须要相关领域的专业知识才可以做。一般情况下,有
驾驶经验的人比没有驾驶证的人,可以更好更有效的标注自动驾驶的数据集。相同地,于医生,病理学
家,放射科医生或者那些在医学方面有学术背景的人,可以更准确的标注医学图像。但是领域专家可不便
宜。

Wilson Pang是Appen的首席技术官,Appen是一家位于悉尼的标注数据交易公司,拥有180多种语言的专业
知识,在130多个国家拥有超过100万名熟练标注员。Pang告诉Synced,当公司购买数据时,成本不再是最
重要的决定因素。 “如果数据质量不合格,AI模型的性能将不尽如人意。 当发生这种情况时,人们通常
需要再次收集和标注数据,这会浪费大量数据科学家的时间,并增加训练这些模型的硬件成本。”

“但最重要的是,当公司无法得到高质量的训练数据时,他们无法及时推出算法模型也就不能赶上竞争对
手的进度 ”Pang说。 今年3月,Appen以3亿美元的价格收购了位于旧金山的高质量数据标注公司
FigureEight(以前称为Crowdflower)。

机器学习辅助的标注工具
为了在视频帧上对车辆进行语义分割,Yuri Borisov在车辆的周围点击两次形成了一个矩形,然后让他们研发出的
机器学习辅助算法来完成其余的工作-快速勾勒出车辆的轮廓。他估计这个工具已经数十倍的提升了标注效
率。

鲍里索夫在莫斯科国立大学获得计算机科学博士学位。 两年前,他联合创立了Supervise.ly,这是一家位
于硅谷的创业公司,该公司研发的软件旨在用深度学习模型提高数据标注的效率。 Supervise.ly平台现已被
超过15,000家公司和工程师使用,主要来自农业,建筑,消费电子,医疗保健和自动驾驶汽车等行业。

Supervisely.ly是过去几年数据标注潮流中涌现出的众多公司之一。Borisov说最近几年复杂耗时的数据注
释工作(如头发分割和视频标注)的需求激增,推动了公司的快速发展。“在头发分割的过程中需要耗费
多少标注员并不重要,重要的是高质量准确像素级的标注”

数据标注软件公司Watchful的联合创始人约翰·辛格尔顿说,大多数需要高质量标注数据的公司在数据科
学和机器学习专业知识方面本身相对不成熟,而且发展人工智能项目的预算也有限。

“数据标注往往是由一个小型并且已经工作量饱和的数据团队完成的,以致于他们不能专心的研究算法模型
,而这个才是真正有意义的工作”,Singleton说。

对于Watchful和Supervise.ly,这些中小型客户代表了一个不断扩大的机器学习工具市场,这些工具可以
帮助他们从有限数据中提取尽可能多的信息。根据Grand View Research的一项新研究,全球数据标注工具
的市场规模预计在2025年将达到16亿美元。

机器学习辅助数据标注的方式有很多。 Borisov描述了一种“人在环”的图像分割方法,其中用户首先在
未标记图像上应用预训练过的分割模型来自动生成大概的轮廓。然后用户手动调整轮廓。其中一个例子是
Polygon RNN,这是由多伦多大学和NVIDIA开发的一个研究项目,目的是在为分割数据集提供高效标注。

Supervise.ly还设计了一个交互式标注模式。如下所示,用户首先在在一个物体周围周围画一个框。然后
,模型会自动创建粗略的轮廓并预测其类/域。然后,用户可以通过简单的鼠标点击来调整模型的预测 -
绿色表示正确的预测;红色表示错误的预测。

Supervise.ly还在探索如何使用无监督学习方法,如生成对抗网络(GAN)进行数据标注。 DeepFake核心技术
的强大算法为生成新训练数据和相应标注提供了技术上的可能性。

Kaggle首席技术官Ben Hamner表示,主动学习是数据标注领域的的另一个热门话题。在最近在旧金山举行
的种子奖活动中,Hamner告诉Synced“使用主动学习是为了辨别哪些数据点需要分类或值得标注。这样我
们就只需要对机器尚未了解或不确定的的数据进行分类。”

学术界在推动数据标注方面的努力

“我怎样才能使用你刚才介绍的数据标注工具?”Huan Ling说这是他在今年6月在加利福尼亚州长滩举行
的顶级人工智能会议计算机视觉和模式识别(CVPR)2019中听到的最常见问题。

Ling是多伦多大学Vector Institute的研究生。他的研究团队最近提出了使用Curve-GCN进行快速交互式物
体标注文章,该文章已被CVPR 2019接收。该研究的一项重大创新是使用图形卷积网络(GCN)自动勾勒出
物体的轮廓。在实验中,这种端到端框架表现优于目前所有自动和交互的模型。

Ling的顾问是Sanja Fidler教授,他是一位受人尊敬的研究员,带领NVIDIA的多伦多AI实验室。她的团
队在对象分割和图像标注方面投入了大量精力,并为PolyGon RNN及其改进版PolyGon RNN ++的创建做出了
贡献。新的GCN方法比PolyGON RNN ++快10倍(在自动模式下)和100倍(在交互模式下)。 Ling的CVPR
2019报告会议受到与会者的热烈欢迎。

与Fidler教授的团队一样,谷歌,Adobe,苏黎世联邦理工学院和其他大型AI实验室也对图像和视频标注非
常感兴趣,谷歌的Open Image,Adobe的交互式视频分割以及ETH的Dextr代表着对这个领域的强大投资。

Ling告诉Synced,数据标注中的难题主要是3D标注和视频标注。 Appen CTO Pang表示,目前基于机器
学习的对象跟踪算法已经可以辅助视频标注。标注员在第一帧上标注对象,然后算法通过后续帧跟踪这些
对象。标注员只需在算法跟踪功能不正确时调整标注。该方法比没有辅助标注时快100倍。

大多数同意采访的内部人士都认为,需要较少标注数据的算法如弱监督学习,少量学习和无监督学习最近取
得了一些进展。但是他们也都认为数据标注企业会继续发展壮大。
“监督学习仍然是人工智能解决方案最有效的方法 - 尤其是那些具创新性的系统 - 而且我认为这种
趋势短期不会改变”Pang说。

小王对她的事业和未来充满信心。 作为一名发展中的助理项目经理,不久她就有机会组建自己的数据标注
团队。 虽然她加入Testin时几乎不了解AI,但她现在对这个工作有浓厚的兴趣。 她现在经常与她的工程
师朋友讨论研究和算法,并密切关注AI相关的新闻,看看AI的浪潮最终会把她带向何方。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章