最近想做一個智能硬件(實現單片機使用W600連接上位機或直接實現語音識別)
查看了華爲雲的語音交互服務SIS,有兩種:錄音文件識別以及一句話語音識別
名稱 | 功能 |
錄音文件識別 |
可以實現5小時以內的音頻到文字的轉換。支持垂直領域定製,對應領域轉換效果更佳。 |
一句話識別 | 可以實現語音到文字的轉換。支持垂直領域定製,對應領域轉換效果更佳。 |
在看了這兩種模式後,選擇了一句話識別,方便在下位機方面進行開發(前些時間已經實現STM32對語音文件實現8K採樣率16bit的PCM格式WAV文件生成)
跳轉到一句話識別的API介紹(https://support.huaweicloud.com/api-sis/api-sis.pdf),發現使用時需要先獲取該用戶的token(呃 通過撥打華爲雲的客服電話解決了這個問題)
獲取用戶Token採用POST方式,地址格式爲:
針對不同的服務端點選擇Endpoint,後綴是相同的/v3/auth/tokens
此時使用華爲雲推薦的軟件(Postman)來實現這個過程
使用這個地址, 進行提交
此時會反饋你的Token(只能使用24小時),如果打算長期使用請選擇SDK (https://support.huaweicloud.com/sdkreference-sis/sis_05_0004.html),目前只有JAVA格式的,本文主要介紹API方式
得到Token就可以進行語音識別啦!!這裏還是使用POST的方式,此時地址會發送改變,一句話語音識別的兩個服務端點爲:
區域名稱 | 終端節點(Endpoint) |
華北-北京一 | sis-ext.cnnorth-1.myhuaweicloud.com |
華北-北京四 | sis-ext.cnnorth-4.myhuaweicloud.com |
因爲我的是華北-北京四,這裏選擇sis-ext.cnnorth-4.myhuaweicloud.com,繼續查看該API手冊,發現對於提交語音數據的包格式定義如下:
此時POST地址爲: https://sis-ext.cn-north-4.myhuaweicloud.com/v1/{projectid}/asr/short-audio
獲取Projectid的方式:將光標放在用戶名下面選擇我的憑證:
得到projectid後開始發包:
我採用的是WAV自識別模式,使用的WAV文件爲AU生成的錄音文件,利用BASE64編碼轉換後進行發送:
data數據爲轉碼後的base64格式,因爲太長就不放上來了。此時點擊SEND
測試成功,本篇結束。