原创 ICASSP2020中語音合成部分論文閱讀(未完待續)

ICASSP2020在5月份已經結束,拿到論文集後,慢慢花時間看一看同行的成果和進展,也算是汲取一點新鮮養分吧。 簡短介紹的同時也會附上自己粗淺鄙陋的想法。謬誤良多,不吝指教。 文章目錄一. 綜述二. 聲學模型-穩定性1. 《

原创 【論文翻譯】通過梅爾頻譜預測來訓練WaveNet的自然語音合成

Google Brain團隊結合Tacotron和WaveNet等研究思路,增加了更多改進,最終實現了新的端到端語音合成系統Tacotron 2,達到了接近人聲的效果。 原論文鏈接: Natural TTS Synthesis

原创 Tensorflow遷移學習加載預訓練模型並修改變量shape和value的方法

遷移學習在深度學習中是經常被使用的方法,指的是在一個任務中預訓練的模型被用於另一個任務的模型訓練,以加快模型訓練,減少資源消耗。 然而網絡搜索相關的話題,基本上只涉及加載預訓練模型的特定變量值的方法,即不涉及預訓練模型某個變量與

原创 Linux xargs命令的理解和使用

xargs是Linux中一個很常用的命令,然而之前即使用到也沒能夠很好地理解。 這次在解決“bash: /bin/mv: Argument list too long”問題時,找到了一份很容易理解的資料。 轉載地址:xargs命

原创 集羣個人用戶離線複製管理Python環境的一些問題

項目的Python環境一直沒有有效管理,大家都是用的同一個環境。某個包需要特定的版本,必然需要考慮升級會不會影響其他人、其他程序的運行。 在研究WaveGlow代碼時,其依賴的torch1.0高於當前的0.4版本,故研究了一下Pyt

原创 tensorflow變量管理與命名空間

在訓練深度網絡時,爲了減少需要訓練參數的個數、或是多機多卡並行化訓練大數據大模型等情況時,往往需要共享變量。另外一方面是當模型變得非常複雜的時候,往往存在大量的變量和操作,如何避免這些變量名和操作名的唯一不重複,同時維護一個條理清晰

原创 【論文翻譯】Deep Voice 3:通過卷積序列學習來擴展語音合成

Deep Voice 3 引入了全卷積序列到序列式模型來進行語音合成,這種新架構在語音訓練速度上有了數量級的提升,經過800 多個小時的語音數據學習,它可以合成 2400 多鐘不同的語音結果。Deep Voice 3的意義在於探索語

原创 【論文翻譯】使用少量樣本的神經語音克隆

這篇論文在神經網絡 採用編碼-解碼RNN 做端到端的機器翻譯的基礎上,使得模型可以在預測下一個詞的時候,自動地選擇原句子相關的部分作爲解碼的輸入,這也是後來被提爲attention機制的內容。 原論文鏈接: Neural Machine

原创 構建語言模型(二):模型訓練與評估

本文針對Ngram語言模型的訓練過程進行描述,針對神經網絡在語言模型中的應用 不在本文範圍之內,後續有興趣可進行研究。 1. 訓練工具   常用的LM訓練工具有Srilm,IRSTLM,MITLM,Kenlm等。      SRILM

原创 構建語言模型(一):文本語料處理

關於語言模型的訓練,網上搜索到的基本是理論爲主,尤其訓練文本的獲取和處理, 往往一筆帶過。通過項目中的實踐經驗,整理成文,可能存在疏漏乃至錯誤。 1. 語言模型概述與流程 1.1 LM概述      語言模型(Language Model

原创 Merlin doc 0.0.1

目錄 Welcome to CSTR’s NN-TTS documentation!Indices and tables開始 必要軟件/工具數據準備(基於神經網絡的語音合成系統) 輸入語言特徵輸出聲學特徵Recipes 結構深

原创 mysql遠程訪問,主從/主主雙機備份,以及使用keeplived實現故障自動切換(二)

3. 雙機故障切換   Keepalived的作用是檢測服務器的狀態,並將有故障的服務器從系統中剔除,同時使用其他服務器代替該服務器的工作,當服務器工作正常後Keepalived自動將服務器加入到服務器羣中。    (1)在兩臺主機上分

原创 mysql遠程訪問,主從/主主雙機備份,以及使用keeplived實現故障自動切換(一)

突然發現CSDN博客對字數有限制,只能將文章切分爲兩篇。 (一)mysql遠程訪問,主從/主主雙機備份 (二)使用keeplived實現故障自動切換,及參考文章 1. mysql遠程訪問   mysql默認不允許遠程訪問,必須在Serv

原创 【論文翻譯】聯合學習對齊和翻譯的神經機器翻譯

這篇論文在採用RNN編碼器-解碼器結構做端到端的神經機器翻譯的基礎上,使得模型可以在預測下一個詞的時候,自動地搜索源句子相關的部分,這就是attention機制。 原論文鏈接: Neural Machine Translation by

原创 語音識別之發音字典

1. 概念   發音字典(lexicon)包含了從單詞(words)到音素(phones)之間的映射,作用是用來連接聲學模型和語言模型的。   發音字典在語音識別過程中的位置如圖所示:   發音字典包含系統所能處理的單詞的集合,並標明