OpenAI的離線音頻轉文本模型 Whisper 的.NET封裝項目

原創

2023-04-24 13:53

whisper介紹

Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經網絡，且它亦支持其它98種語言的自動語音辨識。 Whisper系統所提供的自動語音辨識（Automatic Speech Recognition，ASR）模型是被訓練來運行語音辨識與翻譯任務的，它們能將各種語言的語音變成文本，也能將這些文本翻譯成英文。

whisper的核心功能語音識別，對於大部分人來說，可以幫助我們更快捷的將會議、講座、課堂錄音整理成文字稿；對於影視愛好者，可以將無字幕的資源自動生成字幕，不用再苦苦等待各大字幕組的字幕資源；對於外語口語學習者，使用whisper翻譯你的發音練習錄音，可以很好的檢驗你的口語發音水平。當然，各大雲平臺都提供語音識別服務，但是基本都是聯網運行，個人隱私安全總是有隱患，而whisper完全不同，whisper完全在本地運行，無需聯網，充分保障了個人隱私，且whisper識別準確率相當高。

語言模型文件：https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp