新基建熱潮下,AI 基礎數據服務會有哪些變化?一文看懂 2020 中國 AI 基礎數據服務行業發展現狀及趨勢 | 艾瑞諮詢報告

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

中央定調,“新基建”與社會各領域融合發展的步伐正在加速。在加大對新一代信息技術產業“硬”實力建設投入的同時,“軟”實力同樣不容忽視。

近日,艾瑞諮詢發佈《2020 中國 AI 基礎數據服務行業發展報告》,指出作爲與“新基建”有着強關聯性的 AI 基礎數據服務行業,將迎來潛力較大的市場空間。同時指出,目前人工智能商業化在算力、算法和技術方面基本達到階段性成熟,想要更加落地, 解決行業具體痛點,需要大量經過標註處理的相關數據做算法訓練支撐。

AI 基礎數據服務行業現狀

1、數據決定了 AI 的落地程度,而 AI 基礎數據服務行業卻鮮有關注

人工智能的商業化在中國得到了長足發展,在安防、金融、企服等領域紛紛落地開花,同時也真正意義上衍生出了一套完整的產業鏈。

AI 產業鏈可以分爲基礎層、技術層和應用層。基礎層按照算力、數據和算法再次劃分,對整體上層建築起到支撐作用;技術層根據算法用途分爲計算機視覺、 智能語音、自然語言處理等,是 AI 最引人注目的環節;應用層則按照不同場景的需求定製開發專屬服務,是 AI 真正賦能行業的方式。

image

目前人工智能商業化在算力、算法和技術方面基本達到階段性成熟,想要更加落地,解決行業具體痛點,需要大量經過標註處理的相關數據做算法訓練支撐,可以說數據決定了 AI 的落地程度,而 AI 基礎數據服務行業又鮮有關注。

2、機器學習是主流,深度學習是主要方式,但泛化能力有待突破

機器學習按照訓練方式可分爲使用人工標註分類標籤訓練的監督學習、無分類標籤且自動聚類推斷的無 監督學習、使用少量人工標註+自動聚類的半監督學習和根據現實情況自動“試錯+調整”的強化學習四類,而最著名的深度學習同樣是機器學習的分支,但因爲模型結構的不同而與上述訓練方式不在一個區分範疇,深度學習在訓練方式上均可與四種方式發生重疊。

image

目前來看 AI 應用最廣泛的計算機視覺和智能語音更依賴於監督學習下的深度學習方式,半監督和無監督是學術界嘗試突破的方向,當下僅在如無人駕駛中急轉彎場景訓練等特定領域中得以嘗試應用,而強化學習被認爲是更接近人類在自然界中學習知識的方式,在最佳路徑選擇、最優解探尋等方面有所應用,但泛化能力還有待突破。

3、定製化需求成爲主流

隨着 AI 商業化發展,AI 基礎數據服務需求步入常態化,存量市場具有較爲穩定的需求源頭,而增量市場隨着應用場景的豐富,以及新型算法的誕生,擁有更廣闊的想象空間。

image

4、全球市場呈集羣式發展

2019 年全球人工智能行業發展依舊火熱,重點圍繞北美、歐洲和亞洲三大區域發展,共有 5386 家活躍企業,27400 名高級 研究人員,20 座重點發展城市,產生了約 374 億美元融資,其中自動駕駛、藥物醫療、人臉識別、視頻內容和金融反欺詐是獲得融資最多的領域。

image

綜合來看,美國仍然是人工智能領域的領頭羊,每年不僅向全球輸出最前沿的 AI 應用概念,提供最接近市場需求的應用場景,同時也吸收着世界各地不斷湧入的人才、數據資源和創意靈感。以英國、德國爲代表的歐洲發展區和以中國、日本、新加坡、印度爲代表的亞洲發展區整體實力相近,但走出了兩條完全不同的路徑,雖然歐洲儲備 了大量的 AI人才,但市場活性不強,對於創新業務的發展並不友好,而亞洲雖然人才儲備不充裕,但市場活力十足,對 AI 技術充滿了期待。

5、中國 AI 發展屬世界前列,並處於上升期

對比 2019 年中國與全球人工智能發展情況,在 AI 相關論文發佈數量、企業數量、融資總額、產業規模、專利申請數量等方面中國均居世界頭部陣營,具有充分的市機場競爭力。

image

補足短板方面,目前全國已經有 35 所高等院校開設了 AI 專業,國際交流和國際人才引進也在不斷加深。政府開始重視 AI 基礎層創業公司的培養,資本方也更加關注 AI 芯片、機器學習算法、數據處理等產業鏈上游企業的發展,科技巨頭企業更是提前進行了 AI 生態佈局,建立了產業聯盟,在各方的努力中,中國 AI 市場處於從局部向整體發展的上升期,行業前景良好。

2020 年 AI 數據服務的發展趨勢

1、2025 年市場規模將突破 100 億元

數據顯示,2019 年中國 AI 基礎數據服務行業市場規模可達 30.9 億元,其中圖像類、語音類、NLP 類數據需求規模佔比分別爲 49.7%、39.1% 和 11.2%;根據需求方投入情況和供應方營收增長情況推算,預計 2025 年市場規模將突破 100 億元, 年化增長率爲 21.8%,該行業核心業務與當下以監督學習爲主的人工智能市場具有強相關聯繫,市場發展前景向好。

image

2、從需求角度看,增量市場將替代存量市場成爲主要拉力

AI 基礎數據服務市場從需求角度看可以分爲存量市場和增量市場,存量市場中巨頭互聯網科技公司和 AI創業公司爲主要需求方,項目落地所需要的採集、標註數據逐漸成爲需求核心,存量市場仍是目前 AI 基礎數據服務市場的需求主體;增量市場是相對於存量市場而存在的,以海外市場、國內新需求方市場、國內新興業務拓展和國內新成立的 AI 創業公司需求爲主,增量市場雖然近些年對於整體市場規模的貢獻率不夠明顯,但隨着中國人工智能技術的不斷深入與國際化,在未來將成爲主要的拉動力量。

image

從短期來看,AI 基礎數據服務市場增速仍然與存量市場增速緊密相關,主要依賴於已有客戶常規業務委 託,以及如語音識別業務中方言、小語種數據需求增加等內容更新需求支撐發展,隨着存量市場需求逐漸長尾化,供應方將會更加關注增量市場的拓展,來減輕對已有客羣的依賴,達到良性的可持續發展。

3、中小型數據供應商仍然是市場中的主要供應力量

2019 年 AI 基礎數據服務行業 CR5(前五大企業市場份額)爲 26.2%,處於低集中競爭階段,行業活力充足, 發展空間良好。

image

前五大企業中,海天瑞聲與百度數據衆包越衆而出,國內整體供應方中,以提供圖像類數據採標服務的公司居多,內容涉及人像數據、OCR 數據、自動駕駛數據等,業務需求較爲分散,其中以百度數據衆包營收份額佔比最大。相比而言,語音類數據需求較爲集中,且供應門檻高於圖像類數據,內容包含語音識別數據、語音合成數據等。

從供應方的發展來看,行業內部處於“洗牌”階段,雖然中小型數據供應商的整體體量仍然可觀,但隨着業務門檻提升、 客戶需求多樣化、價格戰中利潤被壓縮等情況成爲常態,越來越多的中小型數據供應商在苦惱生存問題,加之業務斷檔期人員成本的壓力,該羣體在未來1-2 年內將迎來一陣“倒閉潮”。

數據顯示,2019 年中小型數據供應商份額比預期值縮小了20.8%,而這部分份額按 7:3 的比例,向品牌數據服務商和需求方自建團隊釋放,作爲行業的頭部陣營品牌數據服務商在這一階段受益最多,不僅營收方面得以增長,也逐步穩固了自身領頭羊的地位。

image

根據增量市場的特徵,品牌數據服務商在品牌效益、團隊建設、資質、服務意識、業務能力等方面均有優勢,在未來增量市場成爲主要拉動力的競爭階段將佔有更大的主動性,從這兩方面看,未來品牌數據服務商陣營將替代中小型供應商陣營,佔有市場的主要份額。

4、圖像、語音、NLP數據是核心需求

人工智能主要算法應用領域集中在計算機視覺、語音識別/語音合成,以及自然語言處理。

圖像方面,一個新研發的計算機視覺算法需要上萬張到數十萬張不等的標註圖片訓練,新功能的開發需要近萬張圖片訓練,而定期優化算法也有上千張圖片的需求,一個用於智慧城市的算法應用,每年都有數十萬張圖片的穩定需求。

語音方面,頭部公司累計應用的標註數據集已達百萬小時以上,每年需求仍以 20%-30% 的增速上升,要求數據服務商不僅要掌握專業的聲學知識、數據標註經驗,還要擁有語音合成的算法能力。

自然語言處理方面,隨着工業、醫療、教育的AI應用產品進一步爆發,將會有更多交互方式出現,自然語義數據處理的需求將會持續增長,有望成爲繼圖像、語音之後的第三大增量市場。

5、一體化數據平臺是大勢所趨

隨着 AI 基礎數據需求多樣化,以及複雜程度的提升,以往項目經理“人管人”的管理方式和使用單一工具應對單一需求的執行方式在能力和效率上都顯得捉襟見肘。因此,擁有一套自主研發貫通數據庫設計、數據採集、數據處理、質量檢測、質量控制和數據安全管理等各環節於一體,並且能對圖像、文本、語音、視頻以及點雲數據做到一站式加工處理的管理和執行一體化平臺,是實現人力驅動向技術驅動的關鍵一步。

image

6、感知智能助力形成行業壁壘

AI 在數據標註領域主要應用於數據採集和數據處理環節。在數據採集環節,通過使用計算機視覺和語音識別技術對樣本進行初步識別,可以在短時間內達到 90% 以上的校驗正確率,實現幾倍於人力的工作效率。在數據處理環節中,應用人工智能可以對圖像數據進行場景分割、人臉和物體識別,對於語音數據進行語音識別、文字轉寫和自然語言理解的預處理操作,自動完成標註後,再由人工進行校對,不僅降低了標註難度還變相增加了生產力。在數據採集和處理環節中應用感知智能,進行人機協作,將成爲 AI 基礎數據服務行業精細化管理中鮮明的競爭壁壘。

image

7、語音合成需求持續增長

目前語音合成的主流方式可以分爲波形拼接合成和參數合成兩種,其中參數合成是利用文本參數和聲學參數間形成映射模型,從而完成文本內容向語音轉化的過程,所以在有限樣本數據的情況下,參數合成語音成爲了衆多智能語音算法團隊的首選, 隨着深度學習在語音領域的突破,利用神經網絡取代傳統映射建模的參數合成方式,在合成效果上更進一步,逐漸減少了合成語音的機械感。

image

目前該領域主要由海天瑞聲和標貝科技兩家數據公司提供服務,未來隨着物聯網的普及,將會有更多交互設備出現,語音合成需求將會持續增長,在此趨勢下,擁有語音合成數據處理能力,將成爲具有排他性的競爭壁壘。

行業發展與壁壘

目前人工智能行業仍以有監督學習的模型訓練方式爲主,對於標註數據有着強依賴性需求,但隨着 AI 商業化進程的演進,更具有前瞻性的數據集產品和高定製化服務成爲了 AI 基礎數據服務行業的主要服務形式。

image

從全球角度來看,人工智能發展依舊火熱,逐漸形成以北美、歐洲和東亞爲代表的發展集羣,產學研各方人才向其中湧入,世界範圍內的產業交流與合作逐漸形成規模,並日趨常態化。對比中國與世界的發展情形來看,中國正處於補全短板,豐富產業,培養人才,進而向外輸出技術能力的快速發展階段,人工智能行業發展前景良好,而作爲強關聯性的 AI 基礎數據服務 行業受其發展紅利的影響,未來市場仍有不小的上升空間。

從行業內部來看,伴隨着上一輪 AI 創業熱潮的平息,行業經過了 一輪洗牌,脫穎而出的品牌數據服務商和中小型數據供應商形成了主要的供應方力量,但隨着需求方市場由粗獷向精細化過渡,項目要求提高、利潤壓縮、管理成本上升等問題迫使了一衆中小型廠商提前離場,在未來一到兩年內行業將再次迎來洗牌。

下游行業發展帶來的利好,以及行業內部洗牌的趨勢,對於品牌數據服務商而言是機會也是挑戰,存量市場和增量市場具有穩步向上的潛力,洗牌後空白市場留出的空窗期將成爲剩下企業的紅利,但競爭也在悄然發生,紅利過後市場將進入品牌間的正面較量階段,對於存量市場和增量市場的搶奪將成爲主旋律,這於對品牌公司的生產力、精細化管理能 力、利潤把控能力、營銷能力和品牌影響力都帶來了巨大的考驗,爲應對競爭,品牌公司應在紅利期就早早佈局,以技術應用和研發爲驅動力,產生更多行業壁壘換取更多主動性。

當前,AI 已經成爲引領新一輪科技革命和產業變革的戰略性技術,我國在人工智能領域的科學技術研究和產業發展,起步稍晚於以美國爲代表的發達國家,但是,在最近十餘年的人工智能爆發發展期我國抓住了機遇,進入了快速發展階段。隨着人工智能成爲“新基建”重點領域,AI 產業化正加速向產業 AI 化邁進,最終將形成一個萬億級規模的龐大市場。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-06-03
本文作者:劉琳
本文來自:“雷鋒網”,瞭解相關信息可以關注“雷鋒網

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章