原创 Merlin:一個開源的神經網絡語音合成系統

摘要   我們介紹Merlin語音合成工具包用於基於神經網絡的語音合成。該系統將語言特徵作爲輸入,採用神經網絡來預測聲學特徵,然後將聲學特徵傳遞到聲音合成機(vocoder)以產生語音波形。不同的神經網絡架構已被實現,包括標準的前饋神經網

原创 【論文翻譯】通過梅爾頻譜預測來訓練WaveNet的自然語言合成

Google Brain團隊結合Tacotron和WaveNet等研究思路,增加了更多改進,最終實現了新的端到端語音合成系統Tacotron 2,達到了接近人聲的效果。 原論文鏈接: Natural TTS Synthesis by C

原创 CUED-RNNLM:一個有效訓練評估RNN語言模型的開源工具包

摘要   近年來,循環神經網絡語言模型(RNNLMs)在包括語音識別在內的一系列應用中越來越流行。然而,RNNLMs的訓練計算開銷巨大,這就限制了可使用的數據量和網絡大小。爲了充分利用RNNLMs的能力,要求有效的訓練實現。本文介紹了CU

原创 【論文翻譯】WaveNet:一種原始音頻的生成模型

Google Brain團隊結合Tacotron和WaveNet等研究思路,增加了更多改進,最終實現了新的端到端語音合成系統Tacotron 2,達到了接近人聲的效果。 原論文鏈接: Natural TTS Synthesis by C

原创 【論文翻譯】Tacotron:端到端語音合成

Tacotron是谷歌於2017年提出的端到端語音合成系統,該模型可接收字符的輸入,輸出相應的原始頻譜圖, 然後將其提供給 Griffin-Lim 重建算法直接生成語音。 原論文鏈接: Tacotron: Towards End-

原创 語音信號處理之(四)梅爾頻率倒譜系數(MFCC)

      在任意一個Automatic speech recognition 系統中,第一步就是提取特徵。換句話說,我們需要把音頻信號中具有辨識性的成分提取出來,然後把其他的亂七八糟的信息扔掉,例如背景噪聲啊,情緒啊等等。     

原创 Linux iptables防火牆規則配置的兩個坑

好久沒有更新了,之前的一篇文章寫到一半就放草稿箱沒再動。汗顏-_-|| 0. 起因   使用redis數據庫,一臺主機作爲server啓動後,另一臺主機作爲client連接不上server,經查詢,可能是由於server防火牆的原因。

原创 數據準備(快速構建ASR系統)

數據準備在Kaldi官方文檔中已經有了較爲全面、詳盡的說明。 然而在自己拿到語音數據後,要快速構建一個簡單的ASR語音識別系統,對於新手來說,思路可能並不 清晰。 下面,以自己的操作過程爲例,進行簡單的說明。 1. 音頻文件   首先需

原创 使用Scrapy遞歸爬取網頁

1. scrapy介紹與安裝   Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。(百度百科的描述)