微軟推出智能語音評測服務,注重解決四大技術障礙

今年5月,在微軟開發者大會上,他們宣佈推出智能語音評測服務。基於Azure雲的認知服務平臺,該服務涵蓋語音識別、語音合成等技術,主要應用於各種教師評估、作業練習和語言學習等教學場景。

通過市場調研和反饋,他們將語音評測的重點放在解決以下四大問題上:專業性、實時性、穩定性和(能夠給予用戶一定的)可定製性。

以專業性爲例,語音評測對比的是與母語專家評測的一致性。微軟雲計算與人工智能事業部資深產品經理馬莉莎解釋,業內普遍採用皮爾森相關係數來反映兩個序列線性相關程度,範圍在-11之間。1表示完全相關,0.5以上爲強相關,-1則表示完全相反,0表示亂序無關,數值越大表示相關度越高。與市場上的主流技術對比評測,微軟語音評測在一致性上達到了0.75

馬莉莎稱,要解決上述問題,語音評測系統除了做要好多語言識別的問題,還要針對不同打分場景,做到包容性和魯棒性的平衡。

在客戶真實的場景中要儘量貼近真實的用戶使用習慣,用戶習慣中的誤讀、少讀都能包容得很好,且精準地進行打分。馬莉莎表示,與其他提供語音評測技術的企業相比,她認爲微軟的語言模型的抗噪能力,以及在垂直領域上針對不同場景的收音需求,都做得比較深入。

數據是語言模型優化的基石。據介紹,微軟智能語音評測擴展到了40多種語言,每種語言分別積累了數十萬小時以上的母語數據進行學習,在此基礎上,模型能夠適配實時的線上線下應用。微軟Azure雲則提供了算力保障,能夠支撐大規模用戶的計算需求,並保證用戶數據安全性。

也就是說,除了優化模型做好語音識別外,還要做到動態、高實時性地調用大模型,這就要求在總體要平衡多點性能。

目前,微軟已將智能語音評測服務落地到相關教育公司的產品中。馬莉莎稱,微軟與客戶的合作是靈活多樣的模式,簡單的調用API進進行評測是免費的,但在生產環節的集成會按評測音頻的時長計費。

當然,語音評測只是微軟在教育解決方案中落地的一個維度,關於老師聲音的定製化以及有聲課件製作方面,微軟正在積極探索。

未來微軟的語音評測應用場景也不僅限於教育領域。近期,微軟與國內的NGO合作聯合,利用語音技術爲視障學生合成製作了有聲書。馬莉莎稱,語音評測也可以用來評估合成聲音語料本身的質量好壞以及發音是否標準,凡是和語音質量,發音有關的需求,都可以用到。

微軟雲計算與人工智能事業部產品總監丁秉公表示,作爲一家平臺公司,微軟語音評測希望與垂直領域的客戶合作,爲獨立軟件開發商、系統集成商等二次開發解決方案商提供充分的靈活性,以此把個性化服務推到不同的客戶羣,打造相應的語音生態。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章