whisper介紹
Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經網絡,且它亦支持其它98種語言的自動語音辨識。 Whisper系統所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓練來運行語音辨識與翻譯任務的,它們能將各種語言的語音變成文本,也能將這些文本翻譯成英文。
whisper的核心功能語音識別,對於大部分人來說,可以幫助我們更快捷的將會議、講座、課堂錄音整理成文字稿;對於影視愛好者,可以將無字幕的資源自動生成字幕,不用再苦苦等待各大字幕組的字幕資源;對於外語口語學習者,使用whisper翻譯你的發音練習錄音,可以很好的檢驗你的口語發音水平。 當然,各大雲平臺都提供語音識別服務,但是基本都是聯網運行,個人隱私安全總是有隱患,而whisper完全不同,whisper完全在本地運行,無需聯網,充分保障了個人隱私,且whisper識別準確率相當高。
語言模型文件:https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp
ggml-*.bin
則中英文都可以翻譯,根據自己對文字的精確要求選擇模型,small、medium基本夠用。高要求可以使用large,但耗時會多一點。
這麼好的一個模型在.NET 社區有很多封裝的項目:
- 跨平臺 Whisper.net: https://github.com/sandrohanea/whisper.net
- Windows 平臺的Whisper:https://github.com/Const-me/Whisper
下面我們體驗一下這個開箱即用的工具Whisper,從https://github.com/Const-me/Whisper 下週最新的版本:
運行起來,從Hugging Face 下載模型,
選擇轉化的語言、音頻路徑、文本類型、文本保存位置,運行一段時間後,打開後就可以看到文本內容了
實測medium模型:20min音頻,大致耗時20~30min,這個效果是很不錯了。
可以很容易將這個模型集成到自己開發的系統裏。