OpenAI的離線音頻轉文本模型 Whisper 的.NET封裝項目

whisper介紹

Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經網絡,且它亦支持其它98種語言的自動語音辨識。 Whisper系統所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓練來運行語音辨識與翻譯任務的,它們能將各種語言的語音變成文本,也能將這些文本翻譯成英文。

whisper的核心功能語音識別,對於大部分人來說,可以幫助我們更快捷的將會議、講座、課堂錄音整理成文字稿;對於影視愛好者,可以將無字幕的資源自動生成字幕,不用再苦苦等待各大字幕組的字幕資源;對於外語口語學習者,使用whisper翻譯你的發音練習錄音,可以很好的檢驗你的口語發音水平。 當然,各大雲平臺都提供語音識別服務,但是基本都是聯網運行,個人隱私安全總是有隱患,而whisper完全不同,whisper完全在本地運行,無需聯網,充分保障了個人隱私,且whisper識別準確率相當高。


語言模型文件:https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp

image

ggml-*.bin則中英文都可以翻譯,根據自己對文字的精確要求選擇模型,small、medium基本夠用。高要求可以使用large,但耗時會多一點。

這麼好的一個模型在.NET 社區有很多封裝的項目:


下面我們體驗一下這個開箱即用的工具Whisper,從https://github.com/Const-me/Whisper 下週最新的版本:

1682301496791

運行起來,從Hugging Face 下載模型,

image

選擇轉化的語言、音頻路徑、文本類型、文本保存位置,運行一段時間後,打開後就可以看到文本內容了


 image

實測medium模型:20min音頻,大致耗時20~30min,這個效果是很不錯了。

image

可以很容易將這個模型集成到自己開發的系統裏。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章