疫情排查節時86%？不會代碼也能玩轉模型訓練？騰訊大神揭祕語音語義及AutoML黑科技

出品 | AI科技大本營（ID:rgznai100）

2020年7月3日，AI ProCon 2020 AI開發者萬人大會，隆重舉行！作爲CSDN策劃並主辦的系列技術「開發者大會」之一，本次大會通過線上直播的方式，吸引到了10000+開發者/學習者、100+一線大廠AI技術領袖及核心業務線負責人蔘與，共話AI技術風雲。

爲了給開發者提供一站式的學習平臺，本次大會一次性設置了6大主題論壇，20大精彩主題，AI技術、生態、行業、應用、職業規劃、投融資等話題全覆蓋。作爲「技術大會」，AI ProCon 2020在技術議題的設置上也下足了功夫，兼顧了經典技術領域和開發者關注度較高的前沿技術領域，例如語音語義識別和AutoML等。

語音語義識別作爲人工智能領域中的經典分支，以其應用面廣，技術發展相對成熟等特點，長期受到開發者和學習者的追捧；而AutoML憑藉其可以大量釋放機器學習中人工干預的成分，近年來受到越來越多企業的重視。

爲了讓開發者更好地瞭解語音語義技術及AutoML技術的最新進展、應用場景，及技術原理。本屆「AI ProCon 2020大會」邀請了兩位來自騰訊的高級工程師——紀友升、趙勇皓，作爲在上述領域擁有豐富經驗的技術專家，他們深入淺出的分享，博得了參會者的好評。

不僅如此，爲了幫助開發者會後能夠快速上手，他們還帶來了兩大專屬福利！（福利黨直接掃描文末二維碼，即可領取）。

下面我們就一起回顧下這兩位大咖的演講乾貨吧~

從疫情看語音語義技術在政務聯絡場景下的使用

2020年，一場突如其來的疫情給政務聯絡工作帶來了新挑戰，由於疫情影響地域廣、人員多、環境複雜等特點，各級機關在進行轄區居民情況排查、重點人員情況跟蹤、疫情信息通知等工作時面臨巨大的壓力。以轄區居民情況排查爲例，傳統的人工方式只能一天呼叫數個小時；排查、通知任務層層下發，導致任務啓動慢；在收集完信息之後，由人工手動記錄，不僅耗時較長，而且結果還容易受主觀判斷的影響。

在這一背景下，騰訊雲AI語音語義與應用平臺團隊第一時間研發出了「政務聯絡機器人」，希望能通過AI技術的加持，提提升政務聯絡的效率。先看一組對比：

從上圖可以看出，在2000人排查任務中，20個工作人員要花費7.3個小時，而政務聯絡機器人則只需要一小時，節約了86.3%的排查時間。

「政務聯絡機器人」是什麼？

簡單來說，「政務聯絡機器人」可以代替人工完成疫情相關通知和電話排查等任務。工作人員只需要在騰訊雲智能聯絡平臺上完成三步操作，機器人即可運行：

1. 選擇工作任務（通知或排查）；

2. 上傳聯繫人電話；

3. 確認通知內容或需排查的問題；

機器人不僅能夠電話通知，還可以與通話者行對話，並從通話者的語言中獲取關鍵信息，從而判斷出對方是否是「可疑人員」。

機器人背後的語音語義技術

既然是「聯絡機器人」，能聽懂話、會說話、能用更自然的語音語調和句法「說話」是基本要求，要達到這一目標，背後涉及到三個核心技術，即語音識別、語義理解、語音合成。爲了讓「聯絡機器人」更好地完成電話場景下的聯絡任務，騰訊雲技術團隊在技術上做了很多新嘗試。

1. 語音識別

首先是語音識別，完整的語音識別對話系統如下圖所示：

雲系統識別到用戶語音之後，生成語音文本並進入語義理解模塊，對用戶語言的意圖和詞槽進行理解之後，進入到對話管理模塊。對話管理模塊會對整個對話的流程進行把控，並在對用戶意圖和詞槽理解的基礎上，生成回覆文本；最終，文本通過語音合成（TTS）形成語音，回覆給用戶。

然而在語音識別的過程中，最大的挑戰在於VAD斷句策略（即如何判斷用戶的一句話是否說完）、實時性和準確率。

在VAD斷句策略方面，騰訊雲技術團隊通過以下三種方式來對斷句策略進行調優：

1. VAD閾值：判斷用戶一句話後靜音的時間，從而判斷機器人是否該進行回覆；

2. 降噪：對用戶所處環境的背景噪音進行降噪，將用戶語音從噪音中剝離；

3. 用戶打斷：在用戶說完一句話停頓了較長時間繼續說的情況下，機器人可以允許用戶打斷回覆。

在實時性方面，由於電話場景下對於即時回覆的要求較高，如果語音被轉成文本後再去識別，無疑會大大降低對話的流暢性。爲了提高實時性，「聯絡機器人」採用流式語音識別，省去了語音轉文本的步驟。流式識別以每200毫秒的頻率，對用戶的語音做一次分片並上傳到雲服務器，在用戶說話的同時，雲服務器即可完成對語音內容的識別。

在語音識別準確率方面，騰訊雲團隊使用了目前業界較爲先進的「熱詞、自學習模型」，對語音識別中聲學模型及語言模型進行調優，確保識別準確率高於行業平均水準。

2. 語義理解

語義理解的核心是意圖分類和槽位提取，比如「我上週去過武漢」，可以提取爲：

意圖：去過
地點：武漢
時間：上週

傳統的做法是建立一個原始模板，對時間、返回的關鍵時和詞槽進行定義。但這種模板的泛化能力非常的差，一旦用戶的句子裏多了或少了一個字，就無法準確識別；還有人通過機器學習的方式進行語義理解，但這種方式則需要大量的標註語料，對於初創項目不是特別友好。

而騰訊雲團隊則採用了「模板+模型」結合的方法，在冷啓動階段先定義一些模板快速啓動，啓動之後則可以通過模型來提升整體的效果；再通過對其他語義理解技術的應用，如分詞、詞性標註、NER等解析語句中的關鍵詞和詞槽；最後再通過去口語化、同義詞挖掘與泛化、糾錯、改寫等輔助優化的手段，實現最終的效果

3. 語音合成

語音合成的目標是讓電子音變得更接近人聲，主要包括音色、擬真度、韻律等。目前騰訊雲AI語音語義與應用平臺的語音合成技術，已可以支持中文、英文、中英混讀等語種；並且支持5種男聲、9種女聲，並且支持音色定製。

騰訊雲，教你如何玩轉語音識別

介紹完騰訊雲語音語義的相關技術，相信你一定也想了解這些技術除了「政務聯絡機器人」外，還有哪些應用場景？其實，騰訊雲早已將語音識別、語音合成、自然語言處理等技術能力釋放，目前這些技術已應用在了多個產品和場景中。

先說語音識別，它的應用非常廣泛，包括輸入法、語音消息轉寫、音視頻打標籤/審覈等。目前該服務已應用在多個知名產品和業務中，如下圖所示：

此外，語音識別在客服電話質檢中的應用比例也越來越高。在一個客戶案例中，相比於傳統的人工質檢，語音識別技術可以提升250%的效率，減少質檢團隊規模（原先50人的質檢團隊可減少到12人，人力釋放投入到其他產值更高的崗位），並且爲企業節約綜合成本約2000+萬/年。

騰訊雲語音識別服務目前支持中文、英語、韓語，以及粵語（方言），可以通過API、SDK、小程序插件、雲函數等方式快速接入。

再說說騰訊雲的語音合成，正如上面所說騰訊雲的語音合成已經可以支持多語種、多音色的實現。不僅如此，它還支持基礎語音合成（適用於較短的文本）、流式語音合成（適用於較長且實時性要求較高的文本）、語速調節（0.6-1.5倍）、音量調節（11檔）等功能。

目前，語音合已爲多個新聞客戶端、資訊客戶端、教育類應用、閱讀類應用進行賦能。讓用戶在使用這些應用的時候，除了瀏覽，還可以「聽見」對他們有價值的內容

最後是自然語言處理，它的應用面就更廣了，騰訊雲的自然語言處理，可對分詞、情感分析、文本糾錯、關鍵詞提取、同義詞等進行支持，從而大大降低開發者在處理這些流程上的時間。而自然語言處理幾乎可以被應用到任何場景中，包括遊戲、金融、教育等。

【專場特惠，福利時刻！】

看了上面的技術乾貨，想親自體驗一下？

原價90元的實時語音識別、一句話識別、錄音文件識別服務，

大會期間通通9.9元！

另有騰訊雲智能語音產品專享體驗通道，

趕緊掃碼試試吧！

智能語音產品體驗

語音識別1折特惠

人人都能成爲「鍊金術師」，揭祕騰訊AutoML

AutoML是近年來比較火的話題之一，在騰訊雲高級工程師趙勇皓的分享中，他開宗明義爲大家科普了AutoML的起源。在機器學習過程中，算法工程師會花很多時間來調參數，整個過程非常單調，大家也都戲稱他們爲「煉丹師」。於是工程師們想到，是不是能用算法來解決「算法的問題」，從而解放一部分人力。AutoML的本質說的通俗點，就是用魔法來打敗魔法。

然而算法調參只是AutoML試圖優化的其中一個場景，實際上機器學習的整個過程中，都涉及了大量的人工干預，包括數據預處理、特徵提取、模型選擇、算法算則等。如何就這些過程進行自動化的學習，減少人工的干預是AutoML的關鍵。

通常來說，AutoML需要具備3個特徵：

Better performance；（比人工更好的調參效果）
No human assistance；（更少的人工參與）
Lower computation budgets。（更少的計算資源使用）

爲了加速機器學習的生命週期和模型的服務化，騰訊雲推出了「騰訊智能鈦機器學習」（TI-ONE，以下簡稱「智能鈦」），智能鈦是一站式機器學習解決方案。它整合了數據預處理平臺、支持主流機器學習框架、內置常用算法，並且支持自動調參和多個層面的協作。趙勇皓將它形象的稱爲「騰訊雲上的機器學習IDE」。

讓新手也能玩轉AI算法

通常，用戶在模型調優、算法、計算框架方面會面臨調參久、算法上手門檻高，以及計算框架維護繁瑣等問題。針對這些問題，智能鈦提供了自動調參、常用算法，以及各框架各版本等功能。無論是AI算法新手、非算法人員還是算法專家都能快速上手。真正做到讓每個人都成爲「鍊金術師」。

智能鈦擁有擁有以下6大特點：

1. 拖拽式任務流設計；

2. 運行模式靈活；

3. 支持多種機器學習框架；

4. 內置豐富機器學習算法；

5. 便捷的效果可視化；

6. 強大的團隊協作和分享。

拖拽式任務流設計：數據、算法、組件直接拖拽，所見即所得。例如以下面的「數據分類任務」爲例，用戶在智能鈦的界面中拖入數據集，並設定好迭代時間、目標準確率等基本參數後，系統即會自動幫用戶選擇最適合的模型。

此外，拖拽的節點還可以自動連線，用戶還可以根據需要自定義工作流，也可多個模型並行訓練，讓訓練事半功倍。

運行模式靈活：智能鈦支持根據運行資源進行調度策略的設定，包括並行、串行；支持帶參數運行，包括參數設定，以及提供數值型、枚舉型的參數運行設置；支持週期性調度和定時調度；支持歷史實例的詳情查看、模型對比和續跑。

支持多種機器學習框架：包括Spark、Pyspark、TensorFlow、PyTorch、xgBoost、Caffe、Angel、torch、BigDL等。

支持多種機器學習算法：無論是特徵工程中的離散、歸一、降維；還是非深度學習中的迴歸、聚類、分類；還是深度學習中經典的CNN、DNN、RNN；亦或是圖算法中的PageRank、LPA、KCore……智能鈦全都覆蓋。

效果可視化，多樣的數據表現形式：數據結構化預覽、直方圖、柱狀圖、散點圖、餅圖……讓用戶快速掌握數據本質。

團隊協作和分享：智能鈦爲用戶提供了「模型集市」和「數據集市」兩大開發者生態，在模型集市中，用戶可以對模型進行收藏、複用；而在數據集市中，用戶則可以對數據進行存放、標註。這兩大生態讓開發者對模型和數據的使用，像在應用商店使用App那樣便捷。

目前，智能鈦在金融、教育、商業、政務等領域都有廣泛的應用。例如在金融領域中，智能鈦幫助金融機構建立用戶購買行爲預測模型，及客戶流失率預警模型；在商業場景中，幫助園區提高車牌、車標、垃圾桶等識別效果。

在分享的最後，趙勇皓也爲開發者帶來了智能鈦的福利！如果你是算法工程師、AI學習者、想要引入AI技術的企業、開設AI課程的高校，那麼這個福利一定不能錯過！

掃描下方二維碼參與問卷，

即可獲得免費使用的機會！

AI 和中國正在成爲未來科技世界關鍵詞，每一位開發者都將是這股浪潮的親歷者和推動者。讓我們一起學習AI技術，加速這一過程吧！

【本文所有福利集合】

智能語音、語音識別、智能鈦福利大放送！

羊毛等你來薅~

智能語音產品體驗

語音識別1折特惠

智能鈦（TI-ONE）免費使用

推薦閱讀

你點的每個“在看”，我都認真當成了AI

疫情排查節時86%？不會代碼也能玩轉模型訓練？騰訊大神揭祕語音語義及AutoML黑科技 | 內含福利...

DAPPER 事務 TRANSACTION

Java中線程的創建方式

一鍵自動化博客發佈工具,chrome和firfox詳細配置

知乎多場景內容匹配方案榮獲CSDN AI優秀案例獎

重磅！CSDN 發佈「AI開源貢獻獎Top5」「AI新銳公司獎Top10」「AI優秀案例獎Top30」三大榜單...

針對《評人工智能如何走向新階段》一文，繼續發佈國內外的跟貼留言427-438條如下：

360金融首席科學家張家興：我們如何做數據AI融合中臺？

阿里巴巴副總裁司羅：達摩院如何搭建NLP技術體系？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結