ChatGPT 實時語音交流, speech-to-text and text-to-speech

前言

如果期望與 ChatGPT 進行實時的語音交流,可以直接使用 ChatGPT 的 APP 就可以了,本文完。😂
當然,這需要每月 20 美刀。如果只是想偶爾使用,似乎用 API 的方式更划算。

應該有已經封裝好的,可以直接調用 API 進行實時語音交流的工具,暫時沒找到滿意的,求推薦。

speakdual.com 這個網站算一個,但語音識別部分只支持英文。語音識別使用的是瀏覽器 API,理論上支持中文的,但是作者沒有開放源碼,無法修改。

如果要手動實現的話,需要考慮三部分內容, Speech Recognition, AI, Text to speech

Speech Recognition

語音識別可以直接使用 瀏覽器 API,
Web Speech API - Web API 接口參考 | MDN
好用但不太常用的JS API - Web Speech API開發者指南 - 掘金

Dictation
可以在這個網站上進行測試,默認支持的是英文,說出 "Chinese",可以切換到中文識別,而且中英文混合識別的效果也不錯。

也可以直接使用 OpenAI 家的 API Speech to text - OpenAI API

還有就是本地輸入法的語音識別,例如搜狗輸入法就有這個功能,當然,這個就沒法通過 API 來調用了。

或者使用其它的語音識別 API,如訊飛:語音轉寫 API 文檔 | 訊飛開放平臺文檔中心

從成本和可用性來說,Chrome 瀏覽器自帶的,應該就足夠使用了。

AI

這個就沒啥說的了,直接調用 OpenAI GPT 的 API,github 上有很多實現。

TTS (Text to speech)

這個可以使用 elevenlabs 的服務, Speech Synthesis: Generate AI Audio & Voiceovers

eleven_multilingual_v2 模型對中英文的效果都不錯。不過 API 價格不是很美麗,免費的每月只有 10000 字符額度,如果經常使用,還不如直接買 ChatGPT 的付費版本。

或者也可以使用瀏覽器的 API,不知道效果如何。

實踐

Chatbox 是一個很好的 GPT 助手,通過 API 調用 GPT 服務。

這個 PR 是一個爲 Chatbox 添加實時 TTS 的實現
Auto TTS by JasonGrass · Pull Request #1031 · Bin-Huang/chatbox

還需要很多改進,如語音識別部分沒有處理。當前我是在本地通過輸入法的語音識別操作的。

如果能夠直接使用瀏覽器的語音識別 API,加上界面修改,完全可以達到 speakdual.com 的效果。

參考文章

通過OpenAI API可以建立一個和GPT 4進行實時語音對話的系統 - 掘金
Chrome 語音識別
好用但不太常用的JS API - Web Speech API開發者指南 - 掘金

這裏有關於瀏覽器語音識別 API 和 TTS API 的使用與測試說明
Voice to Text with Chrome Web Speech API

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章