原创 pytorch attention 介紹

http://pytorch123.com/FifthSection/Translation_S2S_Network/

原创 nn參數計算

普通RNN: lstm: 那麼參數個數 n 爲: n = 4 * ((x_dim + y_dim) * y_dim + y_dim)

原创 端到端asr系統搭建

驗證了一個端到端語音識別系統,目前cer結果還不錯。考慮怎麼實際使用: 1)服務器端: 利用kaldi的流式處理方法(http目錄1. kaldi-gstreamer-server2. master_server.py3. wok

原创 貪心 大綱

https://blog.csdn.net/hestendelin/article/details/105384299

原创 pytorch transformer 介紹

http://pytorch123.com/FifthSection/Translation_S2S_Network/ https://zhuanlan.zhihu.com/p/44121378 1.3 Positional Encodi

原创 master_worker

見過很多獲取服務器本地IP的代碼,個人覺得都不是很好。從網上搜索到一個靠譜的腳本,分享一下! 通過 UDP 獲取本機 IP,目前見過最優雅的方法 這個方法是目前見過最優雅獲取本機服務器的IP方法了。沒有任何的依賴,也沒有去猜測機器上的網絡

原创 實時語音識別GStreamer+kaldi 搭建介紹

一.搭建 見博客          http://www.luyixian.cn/news_show_274565.aspx 二. 結構     1) master worker client 利用websocket交互     2) g

原创 錄音切分

m4a 及其他轉MP3 流程  首先 ffmpeg 轉成wav ffmpeg -y -i apple.m4a -ac 1 -ar 16000 apple.wav      # 蘋果m4a格式 轉成 單通道 16k採樣率 的wav格式音頻

原创 Deterministic Pytorch: pytorch如何保證可重複性

         要想整個模型是確定性的,我們需要設定好隨機種子,這樣當程序運行到具有random的模塊時,由於僞隨機的種子是相同的,那麼隨機得到的結果也是相同的。需要設定的隨機種子如下。 def set_seed(self, seed

原创 Fully Convolutional Speech Recognition

目錄Abstract1. Introduction2. Model2.1. Convolutional Front-end2.2. Convolutional Acoustic Model2.3. Convolutional La

原创 Kaldi當中語音數據增強有什麼方法

整理 知乎 https://www.zhihu.com/people/leonjin 回答,如侵權立刪   音速擾動sp:將音頻速度擴展爲0.9,1.0,1,1 參考腳本utils/data/perturb_data_dir_speed_

原创 Wav2Letter++ 自動分割標準ASG

查看原文 https://www.infoq.cn/article/BK9LZ7b4txmsOTCQ-vLm Wav2Letter 的核心是個聲學模型,就像我們也許已經猜到的那樣,它可以預測聲波中的字母  

原创 半監督分類的方式:self-training和co-training的算法簡述

半監督學習文章:https://zhuanlan.zhihu.com/p/37747650 自我學習 (self-training) 自我訓練就是通過一系列的步驟,用已有的有標籤的數據(labelled data),去對剩下的還未標記的數

原创 Self-training for end-to-end speech recognition

目錄ABSTRACT1. INTRODUCTION3. SEMI-SUPERVISED SELF-TRAINING3.1. Filtering3.2. Ensembles4. EXPERIMENTSdata4.2. Experim

原创 SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING 端到端半監督訓練

作者分別來自 俄亥俄州立大學,Salesforce, 亞馬遜 alexa,還是值得一讀 目錄ABSTRACTINTRODUCTIONSUPERVISED LEARNING FOR ASR2.1 End-to-end ASR wit