原创 JPEG編碼

https://blog.csdn.net/newchenxf/article/details/51719597 點贊 收藏 分享 文章舉報 lbaihao 發佈了218 篇原

原创 python 爬蟲

https://blog.csdn.net/qq_39591494/article/details/85538162 https://www.cnblogs.com/puresoul/p/7520246.html 點贊

原创 Resnet 網絡詳解與keras實現

#!/usr/bin/python3 from keras.models import Model print("Hello, World!") import numpy as np np.random.seed(1337) # f

原创 深入理解卷積層,全連接層的作用意義

https://blog.csdn.net/m0_37407756/article/details/80904580

原创 kaldi解碼及特徵提取詳解

目錄 1. 注意事項 2. 流程圖: 3. 具體流程指令: 1. 注意事項 首先要訓練好模型,用到3個文件,分別是: final.mdl(訓練模型得到的模型文件) final.mat(用來特徵轉換) HCLG.fst(fst文件)

原创 HTK解碼代碼分析(一)

每個HMM的每個狀態status都有一個TokenSet。這從結構體 _NetInst中可以看出。它有一個鏈表數據項TokenSet *state,就是保存每個狀態status的TokenSet。每個TokenSet.like只保存對應狀

原创 HTK特徵提取(MFCC)代碼分析(一)

HTK特徵提取工具HCopy主要調用了HParm.c和HSigP.c這兩個C文件裏面的函數來實現了原始波形信號到MFCC的轉換。特徵提取的數據全部放在內存中處理,函數調用過程如下: main()->OpenSpeechFile->Ope

原创 HTK解碼代碼分析(二)

HTK解碼總體流程: 首先在HVite.C的main函數中調用相應庫的函數。 HVite_main() { 解析HVite命令行; Initialise(); net = ExpandWordNet(&netHeap,wdN

原创 WFST加權有限狀態機

WFST在語音識別中的應用,要從Mohri的《Weighted Finite-State Transducers in Speech Recognition》這篇論文開始說起。首先看下面簡單的WFST圖,它是一個有向圖,狀態轉移弧上有輸入

原创 語音識別算法原理文檔整理(十)

Kaldi單音素腳本 從腳本run.sh來看,單音素訓練 #monophone steps/train_mono.sh –boost-silence 1.25 –nj $n –cmd “$train_cmd”  data/mfcc/tra

原创 kaldi筆記(一)

#!/bin/bash train_cmd="utils/run.pl" decode_cmd="utils/run.pl" if [ ! -d waves_yesno ]; then wget http://www.opens

原创 kalid筆記(二)

local/prepare_data.sh waves_yesno #!/bin/bash mkdir -p data/local local=`pwd`/local scripts=`pwd`/scripts export PAT

原创 kaldi筆記(三)train_mono.sh詳解

train_mono.sh 是音素訓練腳本,下面詳細介紹各個功能: 1.首先是初始化GMM,使用的腳本是/kaldi-trunk/src/gmmbin/gmm-init-mono,輸出是0.mdl和tree文件; 2.compile tr

原创 kaldi中TransitionModel介紹

kaldi中的HMM模型,實際就是一個TransitionModel對象。這個對象描述了音素的HMM拓撲結構,並保存了pdf-id和transition-id相關的信息,並且可以進行各種變量的轉換。 TransitionModel的定義和

原创 系統學習機器學習之神經網絡(十一) --TDNN

近來在瞭解卷積神經網絡(CNN),後來查到CNN是受語音信號處理中時延神經網絡(TDNN)影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻【1】的理解和整理。該文寫與1989年,在識別"B", "D", "G"三個濁音中得到98.