原创 聲紋識別技術簡介——化繁爲簡的藝術

最近一直在看說話人識別的文章,個人覺得寫的比較全面,邏輯比較清晰的,騰訊優圖的聲紋識別技術簡介綜述寫的很好,推薦給大家! 聲紋識別,也稱作說話人識別,是一種通過聲音判別說話人身份的技術。從直覺上來說,聲紋雖然不像人臉、指紋的個體差異那

原创 雙向長短時記憶循環神經網絡詳解(Bi-directional LSTM RNN)

1. Recurrent Neural Network (RNN) 儘管從多層感知器(MLP)到循環神經網絡(RNN)的擴展看起來微不足道,但是這對於序列的學習具有深遠的意義。循環神經網絡(RNN)的使用是用來處理序列數據的。在傳統的神經

原创 Kaldi語音識別工具運行TIMIT數據庫實例

這幾日一直在忙課題上的工作,就是先把TIMIT數據庫跑了下,附上些說明。 Kaldi安裝後運行TIMIT例子: 1. 對於Kaldi-master版本中,/egs/timit/s5下面的關鍵三個文件cmd.sh,path.sh,r

原创 聲紋識別技術的現狀、侷限與趨勢

之前給大家推薦了一篇寫的比較好的關於聲紋識別的綜述:http://blog.csdn.net/jojozhangju/article/details/78637118 還有一篇是在雷鋒網上看到的,個人覺得寫的也很好,推薦下。 現狀

原创 KALDI語音識別新手區

公告 爲了方便語音識別入門者相互交流、互相學習幫助,特建: KALDI語音識別新手羣 279295537

原创 賓西法尼亞大學強制對齊標註軟件(P2FA)介紹以及使用說明

一、綜述 1. 介紹 賓夕法尼亞大學語音標籤強制對齊(Penn Phonetics Lab Forced Aligner , P2FA) 是基於 HTK 的自動語音標註工具包。它包括美式英語的聲學模型,用來強制對齊的 python 文件以

原创 Ubuntu下安裝CUDA 7.5教程——真正的簡便

下午按照網上的種種教程在Ubuntu下安裝CUDA 7.5 真的是各種問題各種不給力。 然而,最後的劇情是這樣的: 第一步:刪除已有的NVIDIA sudo apt-get remove --purge nvidia* 第二步:到官

原创 人工智能領域中聲源定位的研究與發展------第二章 聲源定位系統 (3)

2.2.3 基於最大輸出功率的可控波束形成技術該方法對麥克風所接收到的聲源信號濾波並加權求和來形成波束,進而通過搜索聲源可能的位置來引導波束,修改權值使傳聲器陣列的輸出信號功率達到最大,波束輸出功率最大的點就是聲源的位置。傳統的波束形成

原创 Coursera Machine Learning 學習筆記(十三)

VI. Logistic Regression (Week 3) - Classification        在分類問題中,我們所嘗試預測的是結果是否屬於某一類(例如正確或錯誤)。分類問題的例子有:判斷一封電子郵件是否是垃圾郵件;判

原创 人工智能領域中聲源定位的研究與發展------第二章 聲源定位系統 (2)

2.2.2 麥克風陣列語音處理模型結構 2.2.2.1 麥克風均勻線陣模型 圖2-2 麥克風均勻線陣 (2.1) (2.2) 方向矢量爲: (2.3) 傳輸矩陣爲: (2.4) 2.2.2.2 麥克風均勻圓陣模型 圖2-3 麥克

原创 語音識別工具Kaldi環境配置及安裝手冊(更新加強版)

一、 安裝操作系統 1. 下載Ubuntu 14.04版本 注:強烈不建議下載比較新的版本,首先不能保證穩定性及兼容性;其次,太新的版本出了問題都沒辦法google。另外,不要手賤的點更新之類的,否則會出意想不到的災難性麻煩(本人親身體

原创 GMM-HMM語音識別模型 原理篇

本文簡明講述GMM-HMM在語音識別上的原理,建模和測試過程。這篇blog只回答三個問題: 1. 什麼是Hidden Markov Model? HMM要解決的三個問題: 1) Likelihood 2) Decoding

原创 Convolution Neural Network (CNN) 原理與實現

本文結合Deep learning的一個應用,Convolution Neural Network 進行一些基本應用,參考Lecun的Document 0.1進行部分拓展,與結果展示(in python)。 分爲以下幾部分: 1.