數據標註:AI背後的十億市場

兩年前,王磊成爲一個數據標註員的時候他的工作內容非常簡單:鑑別圖片中人的性別。慢慢地。他意識
到分配給她的任務越來越複雜,從識別性別到年齡,從框選2D物體到3D物體,圖片場景從白天到深夜
甚至多霧天氣,千奇百怪
小王今年25歲,她以前是個餐廳服務員。2017年她所在的公司倒閉之後,一個算法工程師朋友建議她嘗試一個
新的領域:數據標註,即把現實世界中的數據通過標註提供給人工智能系統,特別是用於監督機器學習上。
她決心試一下就進入了這個領域。
兩年之後,小王成功的成爲了一家坐落於杭州的數據公司曼孚的項目經理助理。她每天8小時的工作通常是
從接待客戶開始,他們通常是中國的科技公司和AI企業。客戶通常會提供一小部分的數據試標註,如果對
標註結果滿意的話,她們就會拿到全部待標註的原始數據。然後她會把原始數據分配給一個標註組,通常
包括10個標註員和3個質檢員。這些專門的標註小組是經過特別訓練的,可以以95%的準確率在8天左右的時
間完成大概10,000張的自動駕駛車道檢測的標註工作。
“這個工作最重要的是要有耐心,理解要標註的數據,注重細節”,小張說,他和所有曼孚的標註員一樣
在加入公司的時候接受了大量的技能和認知上的培訓以確保可以勝任這個工作。


現如今數據標註員有時候會稱爲“AI勞工”或者是“AI領域看不見的工人”。他們標註的數據用來訓練機
器學習模型,然後我們才能享受到通過機器學習賦能的產品和服務。
三十年以前機器視覺系統還幾乎不能識別手寫的數字,但是今天人工智能系統已經可以控制自動駕駛汽車
,在病理幻燈片中檢測腫瘤細胞,甚至審閱法律合同。先進的算法和強大的底層計算資源,精確的標準數
據集,在人工智能的復興中起到了至關重要的作用。
對標註數據需求的持續增長催生了這些第三方的數據企業的蓬勃發展。這些公司有經過嚴格訓練的標註質
檢人員,無論是衆包還在在公司內部坐班,同時他們還開發了專業的標註工具提供高質量精確的標註服務。隨着
數據公司規模的擴大,他們的估值也水漲船高。

高質量數據標註服務的蓬勃發展
一家舊金山名爲SCALE的AI企業獲得了1億美金的投資,成了今夏科技圈的頭條。這家公司由一個22歲的MIT
畢業生成立於2016年,現在已經成爲了硅谷最受追捧的AI初創企業之一。

Scale AI的高估值只要歸功於他們在自動駕駛領域所提供的多樣數據標註服務,Waygo,Lyft,Zoox,Cruise
和Toyota研究所都是他們的客戶。TechCrunch報告稱Scale AI旗下有將近30,000的簽約標註員提供文本,
語音,圖像和視頻的標註服務。

另外一家熱門的數據標註公司是MIGHTY AI(以前稱爲Spare5).今年夏天他們被共享駕駛巨頭Uber收購,
此舉被視爲Uber推動自身自動駕駛技術的發展的關鍵一步。MightyAI成立於2014年,旗下有大量經過認證
和訓練的標註人員高效提供標註服務。

這些新興的數據標註公司都有一些共同點:他們都以自己能提供高質量標註數據服務即經過嚴格質量控制
的專項領域數據而區別於Mturk等傳統的數據衆包平臺。他們的衆包標註員都是在全世界範圍內經過嚴格的
篩選並且接受過專業的培訓和管理的。與此同時,他們公司內部的算法則是通過不斷研究如何應用算法模型來提高
標註效率。 

AI公司的訓練數據除了來自內部的數據標註團隊,通常還非常依賴這些可控高質量的標註服務提供商。Synced被
告知有一些自動駕駛企業每個月需要支付給數據標註企業幾百萬美金用於數據標註服務。

2019年出現了大批可用的自動駕駛標註數據集。Waygo,ford自動駕駛分支Argo AI和Lyft都開源了高質量的
自動駕駛數據集,這對於高度依賴數據的自動駕駛研究的發展是一個非常好的信號。

相比構建一個貓咪圖像分類數據集,構建一個高質量的自動駕駛數據集要複雜的多。Waygo Open Dataset
有16.7個小時的視頻數據,3,000個駕駛場景,600,000視頻幀,將近2500萬3D多邊形和2200萬2D多邊形標註,
而這只是waygo大量私有自動駕駛數據集的一小部分。

中國領先的自動駕駛服務提供商Baidu Apollo告訴Synced一個典型的高質量自動駕駛數據集一般包括:
---像素級語義標註
---3D語義標註
---像素級物體類別標註(pixel-wise object instance annotation)
---精準道路分割
---移動物體關係標註
---高精度的GPS/IMO信息

自動駕駛這個領域本身的一些特質要求自動駕駛的企業必須制定嚴格的數據標註標準。當一個語言模型出
錯時,大不了就是句子不通順。但是一個自動駕駛數據集的錯誤可能會造成自動駕駛車輛在行駛過程中的
災難性後果.

去年UC Berkeley開源了包括100K駕駛錄像視頻的BDD100K數據集,成爲了當時最大的自動駕駛數據集。
Fisher Yu,BDD100K的主要貢獻者之一,告訴Synced,出於對傳統衆包平臺糟糕的標註數據質量的擔憂,
他們選擇把標註工作外包給了第三方的數據服務企業.

“傳統衆包標註員很難交付自動駕駛所需的高質量,高精度的分割數據集,所以企業一般依賴公司內部的
標註團隊或者第三方的數據標註服務企業”,YU這樣告訴記者。

Garbage in, garbage out(沒有高精度訓練數據,就沒有高精度模型產出)

橫店影視城,也被稱爲“中國的好萊塢”,是亞洲最大的電影拍攝基地。它位於浙江中部,由數千公里的
農田改造而成,包括大量多功能拍攝場景,數以千計的中國演員在這裏拍攝電影,電視劇和網絡劇。

我們之前提過的中國標註服務公司-曼孚科技就在橫店設立了一個基地。不過他們不是在拍攝電視劇,而是
用來拍攝和記錄演員的面部表情-大笑,哭泣,憤怒等等,這些數據可以被中國的AI公司用來做面部關鍵點的
標註的素材。

曼孚成立於2018年,隨着人工智能在中國的迅猛發展,他們的團隊成員已經由最初的6個人擴展到幾十人,
同時他們聲稱與他們合作的線下標註工廠有1,000名全職標註員。他們還有專門的算法團隊致力於把最新的
AI技術應用到數據標註中。

中國的科技公司深刻的理解到高質量的標註數據對算法的重要性。最近他們在標註的精度,複雜性,時間
等方面都有了更高的要求。去年很多資金不充裕的數據標註企業倒閉,因爲他們不能滿足這些新的複雜標
注需求。

曼孚的數據標註經理章越告訴Synced,“回到2015和2016年,AI企業可以通過開源數據集或者爬取網絡上公
開數據訓練出來的AI模型就獲得融資。但是如果他們想把算法應用在現實場景中,就必須提高標註數據質
量”。

章以面部關鍵點識別爲例介紹說,幾年以前,標註員只需要在人臉上標註幾個點就可以了,但是現在面部
關鍵點標註需要206點-每個眉毛上8個,嘴脣個20多個,臉頰17個等等。

章說,領域內的專家在標註中也發揮了關鍵的作用。那些廉價的標註員一般只能標註不需要什麼背景知識
的數據,對於法律合同分類,醫學圖像和科學文獻等,必須要相關領域的專業知識纔可以做。一般情況下,有
駕駛經驗的人比沒有駕駛證的人,可以更好更有效的標註自動駕駛的數據集。相同地,於醫生,病理學
家,放射科醫生或者那些在醫學方面有學術背景的人,可以更準確的標註醫學圖像。但是領域專家可不便
宜。

Wilson Pang是Appen的首席技術官,Appen是一家位於悉尼的標註數據交易公司,擁有180多種語言的專業
知識,在130多個國家擁有超過100萬名熟練標註員。Pang告訴Synced,當公司購買數據時,成本不再是最
重要的決定因素。 “如果數據質量不合格,AI模型的性能將不盡如人意。 當發生這種情況時,人們通常
需要再次收集和標註數據,這會浪費大量數據科學家的時間,並增加訓練這些模型的硬件成本。”

“但最重要的是,當公司無法得到高質量的訓練數據時,他們無法及時推出算法模型也就不能趕上競爭對
手的進度 ”Pang說。 今年3月,Appen以3億美元的價格收購了位於舊金山的高質量數據標註公司
FigureEight(以前稱爲Crowdflower)。

機器學習輔助的標註工具
爲了在視頻幀上對車輛進行語義分割,Yuri Borisov在車輛的周圍點擊兩次形成了一個矩形,然後讓他們研發出的
機器學習輔助算法來完成其餘的工作-快速勾勒出車輛的輪廓。他估計這個工具已經數十倍的提升了標註效
率。

鮑裏索夫在莫斯科國立大學獲得計算機科學博士學位。 兩年前,他聯合創立了Supervise.ly,這是一家位
於硅谷的創業公司,該公司研發的軟件旨在用深度學習模型提高數據標註的效率。 Supervise.ly平臺現已被
超過15,000家公司和工程師使用,主要來自農業,建築,消費電子,醫療保健和自動駕駛汽車等行業。

Supervisely.ly是過去幾年數據標註潮流中涌現出的衆多公司之一。Borisov說最近幾年複雜耗時的數據注
釋工作(如頭髮分割和視頻標註)的需求激增,推動了公司的快速發展。“在頭髮分割的過程中需要耗費
多少標註員並不重要,重要的是高質量準確像素級的標註”

數據標註軟件公司Watchful的聯合創始人約翰·辛格爾頓說,大多數需要高質量標註數據的公司在數據科
學和機器學習專業知識方面本身相對不成熟,而且發展人工智能項目的預算也有限。

“數據標註往往是由一個小型並且已經工作量飽和的數據團隊完成的,以致於他們不能專心的研究算法模型
,而這個纔是真正有意義的工作”,Singleton說。

對於Watchful和Supervise.ly,這些中小型客戶代表了一個不斷擴大的機器學習工具市場,這些工具可以
幫助他們從有限數據中提取儘可能多的信息。根據Grand View Research的一項新研究,全球數據標註工具
的市場規模預計在2025年將達到16億美元。

機器學習輔助數據標註的方式有很多。 Borisov描述了一種“人在環”的圖像分割方法,其中用戶首先在
未標記圖像上應用預訓練過的分割模型來自動生成大概的輪廓。然後用戶手動調整輪廓。其中一個例子是
Polygon RNN,這是由多倫多大學和NVIDIA開發的一個研究項目,目的是在爲分割數據集提供高效標註。

Supervise.ly還設計了一個交互式標註模式。如下所示,用戶首先在在一個物體周圍周圍畫一個框。然後
,模型會自動創建粗略的輪廓並預測其類/域。然後,用戶可以通過簡單的鼠標點擊來調整模型的預測 -
綠色表示正確的預測;紅色表示錯誤的預測。

Supervise.ly還在探索如何使用無監督學習方法,如生成對抗網絡(GAN)進行數據標註。 DeepFake核心技術
的強大算法爲生成新訓練數據和相應標註提供了技術上的可能性。

Kaggle首席技術官Ben Hamner表示,主動學習是數據標註領域的的另一個熱門話題。在最近在舊金山舉行
的種子獎活動中,Hamner告訴Synced“使用主動學習是爲了辨別哪些數據點需要分類或值得標註。這樣我
們就只需要對機器尚未了解或不確定的的數據進行分類。”

學術界在推動數據標註方面的努力

“我怎樣才能使用你剛纔介紹的數據標註工具?”Huan Ling說這是他在今年6月在加利福尼亞州長灘舉行
的頂級人工智能會議計算機視覺和模式識別(CVPR)2019中聽到的最常見問題。

Ling是多倫多大學Vector Institute的研究生。他的研究團隊最近提出了使用Curve-GCN進行快速交互式物
體標註文章,該文章已被CVPR 2019接收。該研究的一項重大創新是使用圖形卷積網絡(GCN)自動勾勒出
物體的輪廓。在實驗中,這種端到端框架表現優於目前所有自動和交互的模型。

Ling的顧問是Sanja Fidler教授,他是一位受人尊敬的研究員,帶領NVIDIA的多倫多AI實驗室。她的團
隊在對象分割和圖像標註方面投入了大量精力,併爲PolyGon RNN及其改進版PolyGon RNN ++的創建做出了
貢獻。新的GCN方法比PolyGON RNN ++快10倍(在自動模式下)和100倍(在交互模式下)。 Ling的CVPR
2019報告會議受到與會者的熱烈歡迎。

與Fidler教授的團隊一樣,谷歌,Adobe,蘇黎世聯邦理工學院和其他大型AI實驗室也對圖像和視頻標註非
常感興趣,谷歌的Open Image,Adobe的交互式視頻分割以及ETH的Dextr代表着對這個領域的強大投資。

Ling告訴Synced,數據標註中的難題主要是3D標註和視頻標註。 Appen CTO Pang表示,目前基於機器
學習的對象跟蹤算法已經可以輔助視頻標註。標註員在第一幀上標註對象,然後算法通過後續幀跟蹤這些
對象。標註員只需在算法跟蹤功能不正確時調整標註。該方法比沒有輔助標註時快100倍。

大多數同意採訪的內部人士都認爲,需要較少標註數據的算法如弱監督學習,少量學習和無監督學習最近取
得了一些進展。但是他們也都認爲數據標註企業會繼續發展壯大。
“監督學習仍然是人工智能解決方案最有效的方法 - 尤其是那些具創新性的系統 - 而且我認爲這種
趨勢短期不會改變”Pang說。

小王對她的事業和未來充滿信心。 作爲一名發展中的助理項目經理,不久她就有機會組建自己的數據標註
團隊。 雖然她加入Testin時幾乎不瞭解AI,但她現在對這個工作有濃厚的興趣。 她現在經常與她的工程
師朋友討論研究和算法,並密切關注AI相關的新聞,看看AI的浪潮最終會把她帶向何方。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章