原创 語音識別中的lattice與confusion network

https://blog.csdn.net/yutianzuijin/article/details/77621511 https://blog.csdn.net/yutianzuijin/article/details/78756130

原创 kali源代碼簡單說明

kaldi源代碼簡單說明 kaldi是開源的,基於C++的語音識別工具。一方面語音識別有較高的技術門檻,包含了很多方面的東西,另一方面kaldi集成了太多的東西,造成了其代碼量很大,閱讀起來很困難。 kaldi現在集成了很多的東西,造成其

原创 kaldi nnet3 online2-wav-nnet3-latgen-faster decoder

int main(int argc, char *argv[]) {   try {     struct timeval start,stop,diff;     memset(&start,0,sizeof(struct time

原创 kaldi中的hmm-topology介紹

kaldi中的hmm-topology介紹 kaldi中是對音素進行建模,使用HMM模型。一般情況下每個音素有3個狀態,每個狀態有2個弧。靜音音素sil可能有5個狀態,且每個狀態可能不止2個弧。 kaldi中音素的HMM模型的topo文件

原创 htk解碼器網絡

Htk解碼器網絡 之前看過一部分wfst解碼器的代碼,跟pocketsphinx的解碼器部分結構上面不太一樣,所以閱讀了一下htk的解碼器部分的說明,以期望對pocketsphinx的代碼閱讀有幫助。 參考資料: HTK book htt

原创 CMUSphinx Acoustic Model Types

CMUSphinx supports different types of the acoustic models: continuous, semi-continuous and phonetically tied (PTM). The

原创 PocketSphinx語音識別系統的編譯、安裝和使用

PocketSphinx語音識別系統的編譯、安裝和使用         Sphinx是由美國卡內基梅隆大學開發的大詞彙量、非特定人、連續英語語音識別系統。Sphinx從開發之初就得到了CMU、DARPA等多個部門的資助和支持,後來逐步發展

原创 語音識別的基礎知識與CMUsphinx介紹

         語音識別技術就是讓機器通過識別和理解過程把語音信號轉變爲相應的文本或命令的技術。        基於語音識別芯片的嵌入式產品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeec

原创 語音識別學習記錄 [kaldi中的openfst]

在Kaldi tutorial: Overview of the distribution中介紹了一個使用openfst的例子。先來介紹一下這個例子,再來說明FST(finite-state transducers,有限狀態機)如何應用到

原创 語音識別——DNN在線解碼 aishell爲例

http://kaldi-asr.org/doc/index.html https://blog.csdn.net/chinatelecom08/article/details/81392535 https://blog.csdn.net

原创 kaldi資料

Kaldi官網 http://kaldi-asr.org/doc/index.html 包括一大堆原理和工具的使用說明,有什麼問題請首先看這個。 Kaldi Lecture http://www.danielpovey.com/kaldi

原创 YOLO背景介紹

一、背景介紹YOLO(You Only Look Once: Unified, Real-Time Object Detection),是Joseph Redmon和Ali Farhadi等人於2015年提出的基於單個神經網絡的目標檢測系

原创 語音識別:MFCC特徵參數提取

記憶力不好,做個隨筆,怕以後忘記。網上很多關於MFCC提取的文章,但本文純粹我自己手碼,本來不想寫的,但這東西忘記的快,所以記錄我自己看一個python demo並且自己本地debug的過程,在此把這個demo的步驟記下來,所以文章主要傾

原创 語音識別:MFCC特徵參數提取

Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-Between

原创 【wav音頻解析】之wavread函數的C++實現

摘要: 最近我在用C++寫音頻處理相關的功能實現,在此過程中有一些體會,總結出來供日後回顧,同時與大家分享,接受批評指正。C++實現wav音頻文件的解析,就是先讀取原始採樣數據,每次讀16字節,然後