原创 kaldi安裝編譯

1、下載kaldi gitclone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream   2、安裝依賴庫 apt-get subversion automak

原创 Timit SPHERE格式轉換

timit常用來做語音識別及說話人識別,畢竟開源的語音庫太少了,格式:16k 16bit pcm編碼 完整應該是6300段語音 timit是SPHERE格式的,用的時候需要轉換下格式 參考: http://www.360doc.com/c

原创 linux 使用記錄

主要還是在windows上開發,linux 用得少記錄下 主流發行版本: Debian (1、是社區類Linux操作系統的典範,是迄今爲止最遵循GNU規範的Linux系統) (2、apt-get / dpkg包管理方式)      st

原创 儀表識別 實時儀表盤識別

儀表盤識別,目前只做了指針類儀表盤的識別,有類似需求的可以合作。 指針類儀表盤讀數.mp4

原创 python django 使用記錄

主要想用web搭建個聲紋識別的接口,目前正在學python,比較敏捷,django是其中使用廣泛的文本框架,下面是使用過程中遇到的問題記錄 1、任意ip訪問 1)settings中 ALLOWED_HOSTS = ['*'] 2) pyt

原创 異常值處理

目前還沒有在具體項目中用到異常值檢驗,總結下以備後面項目使用 1)基於馬氏距離的異常檢驗  基於馬氏距離的異常檢驗是針對異常樣本點的檢驗,與下面基於箱線圖的異常檢驗不同,箱線圖的異常檢驗是針對單一屬性的異常檢驗。   歐式距離是我們常

原创 kaldi下清華語音數據集的說話人測試腳本編寫

這是第二次弄了,第一次在朋友服務器上弄,後面關閉了,數據也沒能拷貝,重新寫寫 參考鏈接: https://github.com/kaldi-asr/kaldi/issues/1014  關於trials文件的作用 http://blog.

原创 g++ 選項含義

g++: c++的編譯器.cc,c++文件最好還是用g++,有時會出現undefined symbol: __gxx_personality_v0 這樣的錯誤。 cc和cpp的區別:c++文件,除了Unix系統外,其他的平臺上,C++文件

原创 window下鏈接指定wifi

測試系統:win7 首先手動輸入wifi熱點的密碼鏈接上熱點 鏈接上後,cmd指令下輸入:netsh wlan show profiles 顯示wifi配置文件(鏈接過的熱點都會有一個對應的配置文件) 如果已經有鏈接的熱點就正常了,然

原创 Distutils發佈C++擴展的Python模塊

Distutils的API參閱https://docs.python.org/2/distutils/apiref.html 本地生產python模塊,動態庫 python2.7 setup.py build_ext --inplace

原创 語音

這也引出了聲紋識別,同時也是傳統的語音識別框架下的一個很合理的假設:將語音拆分到音素(phone)的級別,狹義的現代漢語只需要32個音素就已經足夠用了。 如果考慮到每個音素的形態還會受到前後音素的影響,構建三音素模型(tri-phone)

原创 kaldi中log文件生成邏輯

日誌源文件在:kaldi/src/base 中,kaldi-error.h ,kaldi-error.cc 使用時調用: KALDI_ASSERT(num_chan > 0); KALDI_WARN << "..." ; KALDI_E

原创 centos7下使用swig擴展python接口來調用c++ 實現聲紋識別

參考鏈接: http://blog.csdn.net/freewebsys/article/details/47259413 https://www.zhihu.com/question/23003213 http://www.swig.

原创 kaldi中文件的寫入及讀取

文件名有“ rxfilename”和“wxfilename” 兩種類型 “ -” 或者“ ” 表示標準的輸入; filename:12345  定位到12345 Table 有兩種形式: “ archive”和“ script”文件。

原创 聲紋測試結果分析

EER 用的清華數據集訓練(8000HZ,16bit) 測試數據是自己錄製的對應8000HZ,16bit 使用清華數據集自帶的測試集10s註冊,EER在7%左右,20s註冊。EER在4%左右; 自己錄製測試語音的分值幾個都比較接近: 分