原创 FastSpeech2論文中文翻譯

FastSpeech2 論文的翻譯,翻譯的挺差的,大概是那意思 只翻譯了摘要、模型部分和實驗部分 摘要: 高級的TTS模型像fastspeech 能夠顯著更快地合成語音相較於之前的自迴歸模型,而且質量相當。FastSpeech模型的訓練依

原创 Linux查找相關進程並kill

在服務器處理一些批量任務的時候,我們經常需要查找某些進程,並kill。 如果通過ps找出來,再一個個記pid,再去kill效率很低。 以some_process爲例: ps -x  | grep some_process | awk -

原创 pytorch的nn.ReflectionPad1d

最近在看一個torch的項目,用到了nn.ReflectionPad1d這個函數,隨便一搜都是ReflectionPad2d的。於是喵了一眼官網,寫的是真的清楚哇。 比較懶,直接截個圖,簡單說一下。所謂Reflection就像照鏡子一樣

原创 tensorflow的resize_images和pytorch的interpolate

最近在tensorflow v1和pytorch都有寫。 裏面有寫函數具有相同功能。 現在的主要需求是把語音的mel譜tile hopsize倍,但是希望能平滑一些。 推薦2個函數,一個是tensorflow的tf.image.resiz

原创 gunicorn部署的flask,多進程日誌問題,

使用flask時候,我們經常使用logging來寫日誌。 但是gunicorn是多進程啓動的,logging進程不安全! 日誌經常會缺,只有一部分日誌。 就算整合到gunicorn的日誌中 if __name__ != '__main_

原创 通過wav文件和text文件訓練出phoneme文件的過程

環境:python2.7和python3.6 最近訓練的一個神經網絡需要wav文件和phn文件作爲自己輸入。 所有的數據庫中都有wav文件,但是phoneme文件卻不是每個數據庫都有。 TIMIT數據庫中就PHN文件。 先貼個PHN文件的

原创 關於wav文件讀取的一個小問題(librosa和soundfile)

今天在跑melgan時候,發現GPU使用率低的感人。。 原本以爲是pytorch的dataloader的問題 之後把num_worker改爲0,用主進程進行讀取數據。 發現主要卡在了librosa的load上 from librosa.

原创 tensorflow限制使用某塊顯卡

在服務器上運行tensorflow的時候,我們有的程序可能只會使用到一塊顯卡,但是服務器上有很多顯卡,如果一起用主要2個問題。 1.顯存可能會都被佔滿 2.不指定的話總會默認使用第一個。 雖然在程序裏面也可以指定使用哪塊顯卡,但是我覺得不

原创 librosa的安裝

在很多設計到語音識別合成等方面的項目裏 經常用到python的一個包librosa 但是這個包直接用pip安裝容易出現GCC的CXXABI一些各種各樣的問題 推薦使用conda安裝 但是conda的源在國外 下面這個是conda換源的命令