疫情排查節時86%?不會代碼也能玩轉模型訓練?騰訊大神揭祕語音語義及AutoML黑科技 | 內含福利...

出品 | AI科技大本營(ID:rgznai100)

20207月3日,AI ProCon 2020 AI開發者萬人大會,隆重舉行!作爲CSDN策劃並主辦的系列技術「開發者大會」之一,本次大會通過線上直播的方式,吸引到了10000+開發者/學習者、100+一線大廠AI技術領袖及核心業務線負責人蔘與,共話AI技術風雲。

 

爲了給開發者提供一站式的學習平臺,本次大會一次性設置了6大主題論壇,20大精彩主題,AI技術、生態、行業、應用、職業規劃、投融資等話題全覆蓋。作爲「技術大會」,AI ProCon 2020在技術議題的設置上也下足了功夫,兼顧了經典技術領域和開發者關注度較高的前沿技術領域,例如語音語義識別和AutoML等。

 

語音語義識別作爲人工智能領域中的經典分支,以其應用面廣,技術發展相對成熟等特點,長期受到開發者和學習者的追捧;而AutoML憑藉其可以大量釋放機器學習中人工干預的成分,近年來受到越來越多企業的重視。

 

爲了讓開發者更好地瞭解語音語義技術及AutoML技術的最新進展、應用場景,及技術原理。本屆「AI ProCon 2020大會」邀請了兩位來自騰訊的高級工程師——紀友升、趙勇皓,作爲在上述領域擁有豐富經驗的技術專家,他們深入淺出的分享,博得了參會者的好評。

 

不僅如此,爲了幫助開發者會後能夠快速上手,他們還帶來了兩大專屬福利!(福利黨直接掃描文末二維碼,即可領取)

 

下面我們就一起回顧下這兩位大咖的演講乾貨吧~

 

 

從疫情看語音語義技術在政務聯絡場景下的使用

 

2020年,一場突如其來的疫情給政務聯絡工作帶來了新挑戰,由於疫情影響地域廣、人員多、環境複雜等特點,各級機關在進行轄區居民情況排查、重點人員情況跟蹤、疫情信息通知等工作時面臨巨大的壓力。以轄區居民情況排查爲例,傳統的人工方式只能一天呼叫數個小時;排查、通知任務層層下發,導致任務啓動慢;在收集完信息之後,由人工手動記錄,不僅耗時較長,而且結果還容易受主觀判斷的影響。

 

在這一背景下,騰訊雲AI語音語義與應用平臺團隊第一時間研發出了「政務聯絡機器人」,希望能通過AI技術的加持,提提升政務聯絡的效率。先看一組對比:

 

從上圖可以看出,在2000人排查任務中,20個工作人員要花費7.3個小時,而政務聯絡機器人則只需要一小時,節約了86.3%的排查時間。

 

「政務聯絡機器人」是什麼?

 

簡單來說,「政務聯絡機器人」可以代替人工完成疫情相關通知和電話排查等任務。工作人員只需要在騰訊雲智能聯絡平臺上完成三步操作,機器人即可運行:

1. 選擇工作任務(通知或排查);

2. 上傳聯繫人電話;

3. 確認通知內容或需排查的問題;

 

 

機器人不僅能夠電話通知,還可以與通話者行對話,並從通話者的語言中獲取關鍵信息,從而判斷出對方是否是「可疑人員」。

 

機器人背後的語音語義技術

 

既然是「聯絡機器人」,能聽懂話、會說話、能用更自然的語音語調和句法「說話」是基本要求,要達到這一目標,背後涉及到三個核心技術,即語音識別、語義理解、語音合成。爲了讓「聯絡機器人」更好地完成電話場景下的聯絡任務,騰訊雲技術團隊在技術上做了很多新嘗試。

 

1. 語音識別

 

首先是語音識別,完整的語音識別對話系統如下圖所示:

 

雲系統識別到用戶語音之後,生成語音文本並進入語義理解模塊,對用戶語言的意圖和詞槽進行理解之後,進入到對話管理模塊。對話管理模塊會對整個對話的流程進行把控,並在對用戶意圖和詞槽理解的基礎上,生成回覆文本;最終,文本通過語音合成(TTS)形成語音,回覆給用戶。

 

然而在語音識別的過程中,最大的挑戰在於VAD斷句策略(即如何判斷用戶的一句話是否說完)、實時性和準確率。

 

VAD斷句策略方面,騰訊雲技術團隊通過以下三種方式來對斷句策略進行調優:

1. VAD閾值:判斷用戶一句話後靜音的時間,從而判斷機器人是否該進行回覆;

2. 降噪:對用戶所處環境的背景噪音進行降噪,將用戶語音從噪音中剝離;

3. 用戶打斷:在用戶說完一句話停頓了較長時間繼續說的情況下,機器人可以允許用戶打斷回覆。

 

在實時性方面,由於電話場景下對於即時回覆的要求較高,如果語音被轉成文本後再去識別,無疑會大大降低對話的流暢性。爲了提高實時性,「聯絡機器人」採用流式語音識別,省去了語音轉文本的步驟。流式識別以每200毫秒的頻率,對用戶的語音做一次分片並上傳到雲服務器,在用戶說話的同時,雲服務器即可完成對語音內容的識別。

 

在語音識別準確率方面,騰訊雲團隊使用了目前業界較爲先進的「熱詞、自學習模型」,對語音識別中聲學模型及語言模型進行調優,確保識別準確率高於行業平均水準。

 

2. 語義理解

 

語義理解的核心是意圖分類和槽位提取,比如「我上週去過武漢」,可以提取爲:

  • 意圖:去過

  • 地點:武漢

  • 時間:上週

 

傳統的做法是建立一個原始模板,對時間、返回的關鍵時和詞槽進行定義。但這種模板的泛化能力非常的差,一旦用戶的句子裏多了或少了一個字,就無法準確識別;還有人通過機器學習的方式進行語義理解,但這種方式則需要大量的標註語料,對於初創項目不是特別友好。

 

而騰訊雲團隊則採用了「模板+模型」結合的方法,在冷啓動階段先定義一些模板快速啓動,啓動之後則可以通過模型來提升整體的效果;再通過對其他語義理解技術的應用,如分詞、詞性標註、NER等解析語句中的關鍵詞和詞槽;最後再通過去口語化、同義詞挖掘與泛化、糾錯、改寫等輔助優化的手段,實現最終的效果

 

3. 語音合成

 

語音合成的目標是讓電子音變得更接近人聲,主要包括音色、擬真度、韻律等。目前騰訊雲AI語音語義與應用平臺的語音合成技術,已可以支持中文、英文、中英混讀等語種;並且支持5種男聲、9種女聲,並且支持音色定製。

騰訊雲,教你如何玩轉語音識別

 

介紹完騰訊雲語音語義的相關技術,相信你一定也想了解這些技術除了「政務聯絡機器人」外,還有哪些應用場景?其實,騰訊雲早已將語音識別、語音合成、自然語言處理等技術能力釋放,目前這些技術已應用在了多個產品和場景中。

 

先說語音識別,它的應用非常廣泛,包括輸入法、語音消息轉寫、音視頻打標籤/審覈等。目前該服務已應用在多個知名產品和業務中,如下圖所示:

 

此外,語音識別在客服電話質檢中的應用比例也越來越高。在一個客戶案例中,相比於傳統的人工質檢,語音識別技術可以提升250%的效率,減少質檢團隊規模(原先50人的質檢團隊可減少到12人,人力釋放投入到其他產值更高的崗位),並且爲企業節約綜合成本約2000+萬/年。

 

騰訊雲語音識別服務目前支持中文、英語、韓語,以及粵語(方言),可以通過APISDK、小程序插件、雲函數等方式快速接入。

 

再說說騰訊雲的語音合成,正如上面所說騰訊雲的語音合成已經可以支持多語種、多音色的實現。不僅如此,它還支持基礎語音合成(適用於較短的文本)、流式語音合成(適用於較長且實時性要求較高的文本)、語速調節(0.6-1.5倍)、音量調節(11檔)等功能。

 

目前,語音合已爲多個新聞客戶端、資訊客戶端、教育類應用、閱讀類應用進行賦能。讓用戶在使用這些應用的時候,除了瀏覽,還可以「聽見」對他們有價值的內容

 

最後是自然語言處理,它的應用面就更廣了,騰訊雲的自然語言處理,可對分詞、情感分析、文本糾錯、關鍵詞提取、同義詞等進行支持,從而大大降低開發者在處理這些流程上的時間。而自然語言處理幾乎可以被應用到任何場景中,包括遊戲、金融、教育等。

 

【專場特惠,福利時刻!】

看了上面的技術乾貨,想親自體驗一下?

原價90元的實時語音識別、一句話識別、錄音文件識別服務,

大會期間通通9.9元!

另有騰訊雲智能語音產品專享體驗通道,

趕緊掃碼試試吧!

     

智能語音產品體驗

     

語音識別1折特惠

    

 人人都能成爲「鍊金術師」,揭祕騰訊AutoML

 

AutoML是近年來比較火的話題之一,在騰訊雲高級工程師趙勇皓的分享中,他開宗明義爲大家科普了AutoML的起源。在機器學習過程中,算法工程師會花很多時間來調參數,整個過程非常單調,大家也都戲稱他們爲「煉丹師」。於是工程師們想到,是不是能用算法來解決「算法的問題」,從而解放一部分人力。AutoML的本質說的通俗點,就是用魔法來打敗魔法。

 

然而算法調參只是AutoML試圖優化的其中一個場景,實際上機器學習的整個過程中,都涉及了大量的人工干預,包括數據預處理、特徵提取、模型選擇、算法算則等。如何就這些過程進行自動化的學習,減少人工的干預是AutoML的關鍵。

 

通常來說,AutoML需要具備3個特徵:

  • Better performance;(比人工更好的調參效果)

  • No human assistance;(更少的人工參與)

  • Lower computation budgets。(更少的計算資源使用)

 

爲了加速機器學習的生命週期和模型的服務化,騰訊雲推出了「騰訊智能鈦機器學習」TI-ONE,以下簡稱「智能鈦」),智能鈦是一站式機器學習解決方案。它整合了數據預處理平臺、支持主流機器學習框架、內置常用算法,並且支持自動調參和多個層面的協作。趙勇皓將它形象的稱爲「騰訊雲上的機器學習IDE」。

 

讓新手也能玩轉AI算法

 

通常,用戶在模型調優、算法、計算框架方面會面臨調參久、算法上手門檻高,以及計算框架維護繁瑣等問題。針對這些問題,智能鈦提供了自動調參、常用算法,以及各框架各版本等功能。無論是AI算法新手、非算法人員還是算法專家都能快速上手。真正做到讓每個人都成爲「鍊金術師」。

 

智能鈦擁有擁有以下6大特點:

1. 拖拽式任務流設計;

2. 運行模式靈活;

3. 支持多種機器學習框架;

4. 內置豐富機器學習算法;

5. 便捷的效果可視化;

6. 強大的團隊協作和分享。

 

拖拽式任務流設計:數據、算法、組件直接拖拽,所見即所得。例如以下面的「數據分類任務」爲例,用戶在智能鈦的界面中拖入數據集,並設定好迭代時間、目標準確率等基本參數後,系統即會自動幫用戶選擇最適合的模型。

 

  

此外,拖拽的節點還可以自動連線,用戶還可以根據需要自定義工作流,也可多個模型並行訓練,讓訓練事半功倍。

 

運行模式靈活:智能鈦支持根據運行資源進行調度策略的設定,包括並行、串行;支持帶參數運行,包括參數設定,以及提供數值型、枚舉型的參數運行設置;支持週期性調度和定時調度;支持歷史實例的詳情查看、模型對比和續跑。

 

支持多種機器學習框架:包括Spark、Pyspark、TensorFlow、PyTorch、xgBoost、Caffe、Angel、torch、BigDL等。

 

支持多種機器學習算法:無論是特徵工程中的離散、歸一、降維;還是非深度學習中的迴歸、聚類、分類;還是深度學習中經典的CNNDNNRNN;亦或是圖算法中的PageRank、LPAKCore……智能鈦全都覆蓋。

 

效果可視化,多樣的數據表現形式:數據結構化預覽、直方圖、柱狀圖、散點圖、餅圖……讓用戶快速掌握數據本質。

 

團隊協作和分享:智能鈦爲用戶提供了「模型集市」和「數據集市」兩大開發者生態,在模型集市中,用戶可以對模型進行收藏、複用;而在數據集市中,用戶則可以對數據進行存放、標註。這兩大生態讓開發者對模型和數據的使用,像在應用商店使用App那樣便捷。

 

目前,智能鈦在金融、教育、商業、政務等領域都有廣泛的應用。例如在金融領域中,智能鈦幫助金融機構建立用戶購買行爲預測模型,及客戶流失率預警模型;在商業場景中,幫助園區提高車牌、車標、垃圾桶等識別效果。

 

在分享的最後,趙勇皓也爲開發者帶來了智能鈦的福利!如果你是算法工程師、AI學習者、想要引入AI技術的企業、開設AI課程的高校,那麼這個福利一定不能錯過!

 

掃描下方二維碼參與問卷,

即可獲得免費使用的機會!

 

AI 和中國正在成爲未來科技世界關鍵詞,每一位開發者都將是這股浪潮的親歷者和推動者。讓我們一起學習AI技術,加速這一過程吧!

【本文所有福利集合】

智能語音、語音識別、智能鈦福利大放送!

羊毛等你來薅~

  

    

智能語音產品體驗

 

語音識別1折特惠

 

智能鈦(TI-ONE)免費使用

 

 

推薦閱讀
你點的每個“在看”,我都認真當成了AI
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章