前言：

如今的科技在各個方面的發展都非常的迅速，越來越多“不切實際”的幻想也在被實現！而作爲現代人信息獲取以及溝通需求最爲方便快捷的路徑-智能語音，這條路就擺在我們面前。

演講嘉賓：
盛京，阿里雲達摩院-機器智能技術專家

達摩院語音組成立於2014年，具有語音識別、語音合成、聲紋識別、自然語言處理、語音交互等等的能力。

以下內容根據演講嘉賓視頻分享以及PPT整理而成。

本次主要內容分爲四部分：
一．公共雲方案
二．智能語音本地化部署方案
三．智能互動大屏
四．語音自學習平臺

一、公共雲方案

在公共雲方面，服務於集團34個BU，107個業務，包括手淘、支付寶、菜鳥、釘釘、口碑、高德、UC、優酷土豆、天貓精靈等；除了內部外，還有映客直播、一號互聯等用戶。

從2014年手淘上線後，我們的語音識別覆蓋了各種各樣的場景。這裏面有單純的手機APP，也有車載，包括18年的時候，包括地鐵通過語音購票、甚至最新款的汽車。

給大傢俱體介紹下，服務於客服方面，我們是如何利用智能語音能力的？

在智能客戶領域，我們兩個最典型的的案例就是支付寶95188和菜鳥的1518。
支付寶是一個呼入的場景，他是一個電話的、智能的客服。大家如果有打過支付寶電話的一定知道，打完之後，電話另一方會說“請用一句話來描述您的問題”。這時候您可以說：“我的密碼忘了”，這時候會有機器人和你對話，告訴你具體的方法。這個就是支付寶電話客服的應用場景。

那麼呼出場景，就是菜鳥的智能語音助手，去年雙11的時候，我本人就接到過菜鳥打來的電話，他會說：先生，您的某某快遞放在小區的蜂站了。如果您說可以，他會禮貌的掛機；如果您說不可以的，他會問你：先生，您什麼時候在家，我會把快遞給您送過去等等。

這兩個應用都節省了大量的人力，在雙11時，支付寶智能客服自主率達到了97%；菜鳥機器人替200W快遞員打電話。在過去11快遞員工作主要就是打電話，現在通過菜鳥助手，就能解決絕大多數問題。

二、智能語音本地化部署方案

除了剛剛介紹的公共雲的情況，我們在本地化部署上也有很多應用的場景。
我們提供的主要是一套軟件，有能力的開發公司可以把我們語音的能力集成到你們的產品中，這樣我們可以共同深入打造各行各業各個場景下的解決方案。
我們提供的能力包括語音識別、語音合成、MRCP、防串音、最重要的還有語音自學習平臺。

我們最主要的是聚焦於語音的核心能力，緊靠行業夥伴，我們是一起打造產品的。
我們和友商的區別主要是：友商做語音產品都是端對端的，所有東西都是自己做；而我們只做最核心的，語音識別或者語音合成。然後把能力開放出來，讓合作伙伴基於這樣的能力來做各種各樣的應用。

我們本地化部署方案的標杆是有：智慧法院的一個解決方案，目前我們深度合作了法院領域頭部的ISV，包括了華宇、雲嘉等等。

我們標杆案例有浙江高院、福建高院等等，覆蓋了300家法院，有超過1萬家法庭應用了我們語音識別。

這是我們在法院的一些場景，所做的一些事情。同時全國的幾大互聯網法院，包括第一家杭州互聯網法院，北京、廣州互聯網法院，用的都是我們的語音識別。

在智能客服領域，我們聯合阿里小蜜，和ISV爲中國移動、中國平安做了智能電話機器人、外呼以及金牌話術。

金牌話術還是要再提一下，在客服領域，不同人的交流溝通能力也不一樣的，反饋到結果上就是有的人業績比較好，有的人差一些。我們金牌話術要做的就是：基於客服和客戶的聊天，來把溝通弄技巧挖掘出來。每當你和客戶交流的時候，就會提示你應該怎麼說，應該做什麼樣的引導。

三、智能互動大屏

除了剛纔介紹的客服和司法，我們還有達摩院全球首創多模態語音交互方案，能夠實現在強噪音環境下的免喚醒人機交互。
比如說在公共空間，地鐵購票、肯德基點餐，都能夠通過我們這套解決方案實現人機交互，我們這個產品的優勢，就是強噪音語音環境下的語音識別、同時免喚醒、以及長句子的流失理解。
這套語音交互產品模式就是：我們提供軟硬件一體的套件，再加上定製的外殼，我們有一個官方標準的，合作伙伴也可以根據各種需求來定製，之後我們就可以對接到客戶的系統裏面。
這時候就能有各行各業的應用，比如對接客戶的支付系統。圖書管理系統、導航系統。

這套方案的標杆案例就是：上海地鐵語音售票機。
• 2018年3月已正式落地上海南站和漢中路地鐵站
• 全球第一臺地鐵語音售票機
• 在地鐵真實嘈雜環境下語音識別準確率超過96%

上海地鐵語音售票機介紹視頻點擊播放

四、語音自學習平臺

最後我們來介紹下—語音自學習平臺。
之所以提供語音自學習平臺，是因爲我們在與客戶接觸中，聽到客戶很多對語音識別的建議。首先語音識別是一個非標輸出的軟件，部署到客戶現場的時候，可能由於麥克風、口音等等，導致識別率不好；或者領域不匹配，比如客戶有一些專業的用語，我們自己的模型可能覆蓋不到。

所以我我們提供了語音自學習平臺。獨特優勢主要在於：可以通過自助來添加語料的方式來進行優化，可以輸入詞、句子、篇章，具備分鐘級的訓練速度，而且操作很簡單，可以一鍵式完成。
語音自學習平臺主要包括三部分：

泛熱詞
北京女子圖片→北京女子圖鑑

類熱詞（人名、地名等）
原告以不應選公司→原告與布衣軒公司
我們可以看到，如果你不做任何的優化，很容易出現各種混淆錯誤。

定製化語言模型
提供的是整個的篇章，比如說有些公司有內部的材料，比如說客服行業，我們可能有一些產品介紹、文檔之類的，都是長篇的文本，我們就可以定製化語言模型來優化。

以上就是我們今天講的主要內容，大家如果有興趣可以持續關注我們！

下面是我們的QA環節：

1. 語音產品收費
公有云都是支持免費試用的，按照文檔一步步操作，就可以創建自己的語音識別程序。
點擊試用
2. 我們語音有哪些類型？
a) 實時語音識別：實時反饋結果
b) 一句話識別：應用在搜索的場景下
c) 錄音文件轉寫：相較於實時語音識別，速度很快

3.教育行業有哪些語音場景？
在過去，我們無法落實每堂課的知識點，如果有了智能語音，我們可以把老師講的內容全部轉成文字，再通過一定的質檢規則來判斷老師是否做到位了；同時類似於兒童學英語行業，口語評測之類的也會有一些需求。

泡沫下的破浪者，智能語音產品到底落地何處？

前言：

一、公共雲方案

二、智能語音本地化部署方案

三、智能互動大屏

四、語音自學習平臺

下面是我們的QA環節：

相關鏈接：

Watchdogs利用Redis實施大規模挖礦，常見數據庫蠕蟲如何破？背景 2月20日17時許，阿里雲安全監測到一起大規模挖礦事件，判斷爲Watchdogs蠕蟲導致，並在第一時間進行了應急處置。

在 Ali Kubernetes 系統中，我們這樣實踐混沌工程

雲上護航服務—保障雲上的尖峯時刻

本地 vs 雲：大數據廝殺的最終倖存者會是誰？— InfoQ專訪阿里雲智能通用計算平臺負責人關濤

我們總結了每個技術團隊都會遇到的 4 個難題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結