原创 語音識別學習日誌 2018-7-16 語音識別基礎知識準備(2)

2018-7-16 音強 表徵聲波強度,一般用DB值衡量。聲音強度由振動幅度的大小決定,以能量來計算稱聲強,以壓力計算表示時稱聲壓。聲強(I)與聲壓(P)的關係爲:I=(P^2)/(ρv) (此時P爲有效值,若P爲幅值,則 I=(P^2

原创 語音識別學習日誌 2018-7-19 語音識別基礎知識準備(5)[Viterbi算法]

Viterbi算法是一個通用的求序列最短距離的動態規劃算法。HMM模型的解碼可以用Viterbi算法完成,解碼過程可以描述爲給定HMM的模型和觀測序列,求給定觀測模型下最可能出現的狀態序列。 HMM最可能隱藏狀態序列求解概述 在HMM模型

原创 RBM&DBN

懶癌晚期GG https://blog.csdn.net/hanzihan123/article/details/23707143

原创 機器學習中的熵、條件熵、相對熵和交叉熵(爲何使用交叉熵作爲損失函數)

1、信息熵 (information entropy)   熵 (entropy) 這一詞最初來源於熱力學。1948年,克勞德·愛爾伍德·香農將熱力學中的熵引入信息論,所以也被稱爲香農熵 (Shannon entropy),信息熵 (in

原创 Shell特殊變量:$0, $#, $*, $@, $?, $$和命令行參數

Shell特殊變量:Shell $0, $#, $*, $@, $?, $$和命令行參數 特殊變量列表 變量 含義 $0 當前腳本的文件名 $n 傳遞給腳本或函數的參數。n 是一個數字,表示第幾個參數。例如,第一個參數是$1

原创 語音識別學習記錄 [傳說中的頻率混疊和Nyquist定理(定性理解)]

Nyquist定理:爲了不失真地恢復模擬信號,採樣頻率應該不小於模擬信號頻譜中最高頻率的2倍。 Nyquist定理主要就是爲了避免頻率混疊現象。本文不再給出推導過程,推導可以參考奈奎斯特採樣定理之我見。頻率混疊是由於採樣信號頻譜發生變化,

原创 語音識別學習記錄 [再談頻率混疊(定量分析、離散採樣後頻譜的週期延拓)]

前幾天在語音識別學習記錄 [傳說中的頻率混疊和Nyquist定理(定性理解)]中簡單理解了一下頻率混疊的原因。但是也發現了很多不明白的問題: 1、爲什麼信號經過傅里葉變換後在頻域是關於y軸對稱的,這個問題的回答已經寫在語音識別學習記錄 [

原创 語音識別學習記錄 [關於tensorflow.nn.conv2d方法的padding參數]

先看一下tensorflow.nn.conv2d 的說明: tf.nn.conv2d 卷積函數 參數 input 輸入圖像 四維,shape如[batch, in_height, in_width, in_channels] 參數 fil

原创 語音識別學習日誌 2018-7-25 [softmax溢出的解決(softmax結果張量中的元素大部分是0或1)]

昨天做的MLP,網絡中每一層都沒用任何激活函數,所以輸出層的結果_logits中的部分數值比較大(絕對值在3000左右)。最後使用softmax函數對輸出層進行處理得到各個結果的概率,發現訓練的結果很不理想,準確率在50%以下。最後發現s

原创 語音識別學習記錄 [語音信號的一種處理方式(MFCCs特徵提取)]

寫這一篇博客主要是因爲在看一些語音識別方面的論文時,論文中對語音信號的處理過程都是一概而過,感覺一直很模糊,所以今天特意找了一些相關的博客看了看。而對語音信號的處理我找到的相關的文章大部分都是在說MFCC,正好之前MFCC我也沒詳細看,所

原创 語音識別學習記錄 [循環神經網絡RNN、LSTM介紹及實現]

RNN簡介 RNN結構 Back Propagation Through Time(BPTT)訓練 Long Short-Term Memory(LSTM,長短時記憶網絡) 上文的介紹轉自RNN-循環神經網絡和L

原创 語音識別學習記錄 [kaldi中的openfst]

在Kaldi tutorial: Overview of the distribution中介紹了一個使用openfst的例子。先來介紹一下這個例子,再來說明FST(finite-state transducers,有限狀態機)如何應用到

原创 語音識別學習記錄 [TDNN時延神經網絡]

最近了解了卷積神經網絡(CNN),CNN是受語音信號處理中時延神經網絡(TDNN)影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻Waibel A, Hanazawa T, Hinton G, et al. Phoneme rec

原创 shell判別表達式

算術比較運算符 num1-eq num2 等於,例如 [ 3 -eq $mynum ] num1-ne num2 不等於,例如 [ 3 -ne $mynum ] num1-lt num2 小於,例如 [ 3 -lt $mynum ] nu

原创 語音識別學習記錄 [kaldi的chain model]

kaldi 中的'chain' models 簡介 chain model是DNN-HMM模型的一種,使用nnet3結構,與傳統模型有很多不同點。可以將它看作聲學模型的一個創新點。 使神經網絡的輸出的幀率縮小三倍,明顯的縮小了測試時的計算