市場佔比 44%,IDC 最新報告:阿里雲智能語音市場排名第一

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

近期,權威調研機構IDC發佈了《中國AI雲服務市場半年度研究報告》,就國內主要雲廠商的雲上AI服務進行了調研,包括人臉人體、圖像視頻、智能語音(ASR&TTS)、對話式AI、NLP、機器學習6大類別。其中,阿里AI在智能語音、對話式AI、機器學習三大領域,獲得6個維度的第一,並以44%、57%、29%的市佔率位列三大領域市場份額第一,領跑同類雲服務廠商。

image


數據來源:IDC《中國AI雲服務市場半年度研究報告》(2019H2)

作爲較早佈局雲上語音AI技術的企業,阿里巴巴通過阿里雲對外提供語音原子能力、行業模型及自學習平臺等服務,給用戶「開箱即用」的行業語音解決方案。此外還推出語音識別、圖像識別、自然語言處理等多領域上百款細分AI產品。在達摩院的助力下,阿里雲解決了AI研發的算法/算力瓶頸,加速了AI應用落地的進程。目前,阿里雲語音已擁有5萬多家客戶,包括中移動、中央電視臺、招商銀行、字節跳動等,覆蓋教育、金融、出行等數十個場景。

在IT基礎設施全面上雲的大潮下,AI產業結構正在發生巨大的改變。由於傳統AI服務成本高、週期長、個性化能力弱等特點,雲上獲取AI服務逐漸成爲了企業的首選。雲+AI成爲了加速AI技術大規模落地的重要推手,也成爲了AI語音產業的新入場券。

那麼,基於雲的語音服務是如何發展的?雲上語音與傳統的語音服務有哪些差異?你該如何玩轉雲+語音?帶着這些問題,CSDN近期採訪了達摩院語音實驗室負責人鄢志傑。

“雲必然會成爲語音產業的新入場券”

鄢志傑在語音技術的研究經歷可謂「根正苗紅」,畢業於中國科學技術大學語音實驗室,專注於音識別、語音合成、語音交互、說話人識別驗證等領域的研究。畢業後在微軟亞洲研究院繼續語音方面的研究,之後加入了阿里,擔任達摩院語音實驗室負責人。正是在阿里的這段工作經歷,讓本來深耕於AI領域的他,看到了雲與AI結合的前景。他認爲:“雲的出現,讓誕生了60多年的語音技術從少數人掌握的高端工具,變成了人人可用的平民技術,雲成爲了語音產業的新入場券。”

縱觀語音技術的發展,可以看出這樣一個趨勢,即對細分場景的不斷「解鎖」。從最開始戴着耳麥去做簡單的語音識別,到通過命令去檢索一些簡單的信息(如某家公司的股價),再到後面以Siri爲代表的手機語音助手,到現在以智能音箱爲代表的各種智能硬件設備。語音已成爲了智能設備中的標準化交互入口,放眼未來萬物都可能通過語音來進行交互。

傳統的語音技術往往掌握在兩類公司手裏,一類是以操作系統起家的巨頭,如微軟。這類公司往往是從滿足自己操作系統對於殘障人士的支持爲目的,加入了語音輸入的功能;第二類則是專業的語音技術廠商,如Nuance。這類公司的定位則是爲其他大公司提供語音服務(這類公司很容易被這些大公司自己的語音技術部門所取代)。

這兩類廠商所提供的語音服務也大都是「標準化」的服務。由於行業的差異,用戶所需要的服務也千差萬別,一套「標準化」的服務很難滿足不同行業的需求。例如,同樣是客服呼叫中心,所面臨的客戶羣體、對話內容、專業術語等截然不同。而爲用戶提供個性化語音服務,正是雲上語音模式有別於傳統語音服務商的區別所在。

image

雖然「雲上語音」聽起來像是一個新模式,但在鄢志傑看來卻並非如此。還以客服呼叫中心爲例,以往客服中心提供商需要到客戶的辦公所在地爲他們提供服務,但現在,這種服務從底層運算存儲到工作頁面,都已實現雲化。在雲化的基礎上,供應商發現雲平臺還可以提供AI的能力(如智能語音),因此造就了「雲上AI」的大規模落地。

簡單來說,「雲上語音」並非是一種「新模式」,而是基於雲服務的自然延伸。

授人以魚,不如授人以漁

從另一角度來看,雖然雲上語音是基於雲服務的一種延伸,但在服務模式上卻有着本質的差別,總結起來一句話即「授人以漁」。

「授人以魚」的初衷,來自於前文提到的用戶對於個性化功能的需求。例如,在金融領域下還可細分爲保險、證券、銀行等分支,一個標準化的「金融領域語音識別模型」是無法適用於多個細分分支的。

傳統的語音技術服務商走的是「自產自銷」模式,面向行業應用的個性化定製手段少、門檻高、週期長、成本高,導致語音技術在產業落地應用中進展緩慢。

而云上語音模式,則是將「自學習」能力開放給用戶。通過阿里雲語音自學習平臺,用戶可以在完全不瞭解語音語言算法的情況下,通過灌注行業數據,快速定製出一套自己專屬的語音模型。用鄢志傑的話說,這相當於把原來操作複雜的單反相機,變成了傻瓜相機,用戶只要半按快門,阿里雲就已經將相應的參數優化好了,這樣用戶就可以將全部的精力放在取景和構圖上了(即自身的業務上)。

不僅如此,阿里雲語音自學習平臺還具備以下幾個特點:

自適應,通過對領域數據的使用和知識的灌注,自動將一個80分的模型優化到95分;

優化速度快,藉助於雲底層平臺,模型優化可以做到分鐘級;

全鏈路覆蓋,適用於各種各樣的場景,無論雲上的產品還是私有化部署都可以使用;

雲原生彈性賦能,雲上語音服務具備傳統語音服務所不具備的面向海量用戶提供服務的能力;

多域環境支持,既支持SaaS級服務,讓用戶可以直接在平臺上做優化;也支持PaaS級服務,用戶業務系統可直接進行集成。

除了語音自學習平臺,達摩院語音實驗室還研發出了不少「黑科技」,例如KAN-TTS語音合成技術,這一技術讓合成音與原始音頻的接近程度空前地提高到了97%(傳統技術的接近值爲85%-90%)。基於遷移學習及多種新型算法模型,只需用手機錄音十分鐘,KAN-TTS即可根據發音人的聲音風格,快速生成高相似度的語音。目前,這一技術與其他技術一樣,被應用在了多個產品及服務中。

image

「雲上語音」有哪些典型的應用場景?

“我們接觸到的終端用戶,如某某銀行,和傳統的語音服務提供商的終端客戶是一致的。因此我認爲不存在哪種客戶是隻適合傳統語音服務提供商而不適合雲上語音服務的。”當被問到“雲上語音適用於哪些場景“時,鄢志傑這樣說道。

在所有應用場景中,阿里語音AI在呼叫中心、電信運營商、法庭庭審中的客戶認知度,排名第一。

此外,在2019年,阿里語音AI還對全國首個虛擬人工智能配網調度員帕奇進行了支持。帕奇的「大腦」裏儲存着調度規程、安全規程、分析報告等數十萬字的文本材料;還有上百TB的設備、人員、電網拓撲等基礎數據及5000小時語音數據。當帕奇發現電網故障時,會第一時間發出故障警告,電話聯繫相關搶修專家,並準確計算出搶修專家到達搶修現場所需要的時間、導航路徑等。

帕奇上崗前,配網調度員每天需要接通100多個電話,通話超過200分鐘,實時監控500條信息,配調早晚高峯期的電話同時呼入量高達40次,根本來不及接通,現場人員需要長時間等待。

而帕奇的出現則大大提高了調度的效率,他最多可以同時撥打200個電話,24小時不間斷工作,並準確地完成海量數據的監視工作。他的出現把現場人員的等待時間縮短到了1分鐘。更神奇的是,帕奇不僅能對普通話對答如流,面對口音較重的老師傅,還能對杭州話、杭州蕭山話進行識別。

除了對外部客戶的支持,阿里語音AI也應用在了很多阿里的內部業務上,包括阿里集團幾十個BU、近百個業務方。例如淘寶、天貓、支付寶、天貓精靈、釘釘、阿里媽媽、1688、零售通、支付寶、書旗小說、UC瀏覽器、夸克瀏覽器、盒馬、菜鳥、大麥和高德等。

2019年4月,達摩院語音實驗室聯合高德地圖上線了「你好小德」語音助手,支持語音搜索地點、規劃道行、信息查詢等多項功能。2019年雙十一期間,阿里語音AI支持了阿里經濟體峯值近萬併發的智能外呼和導航業務,其中98%以上的電話客服都是由語音AI提供。這也進一步驗證了阿里語音AI背後的超大規模併發支持能力,正因如此,達摩院的雲上語音技術,也在2019年被MIT Technology Review評爲“2019年十大突破性技術”。

結束語

根據《中國AI雲服務市場半年度研究報告》預測,2018年到2024年中國AI雲服務市場的複合增長率將高達93.6%。未來3-5年,已經部署的AI產品,也可能被新一代更智能的產品替代。這意味過去傳統AI/語音服務提供商的客戶,都有可能成爲雲服務商的客戶。

正如IDC報告所言,“語音語義領域,用戶重視的是服務,能不能滿足客戶的個性化需求十分重要,另外服務態度也很重要。”只有能針對用戶的個性化需求提供定製服務的,才能笑對未來的市場。

而對於已經在這波大潮中先行的阿里語音AI來說,未來則會去開拓更多在現有技術下無法實現,卻具有高價值的語音場景,用「雲+語音」去解鎖更多的可能!

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-15
本文作者:Aholiab
本文來自:“ CSDN”,瞭解相關信息可以關注“ CSDN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章