原创 語音識別——kaldi安裝與編譯

1、安裝 下載源代碼: git clone https://github.com/kaldi-asr/kaldi.git 各目錄功能: ./tools目錄下面全部都是Kaldi依賴的包。其中主要有: OpenFST:Weighted F

原创 FFmpeg安裝

ffmfeg是一個常用的音頻處理軟件,下面附上linux系統的安裝步驟,方便各位使用: 1、 pip3 install ffmpeg 2、到ffmpeg官網下載安裝包。https://www.ffmpeg.org/ 然後解壓 tar

原创 paperpass推薦

推薦大家一個靠譜的論文檢測平臺。重複的部分有詳細出處以及具體修改意見,能直接在文章上做修改,全部改完一鍵下載就搞定了。怕麻煩的話,還能用它自帶的降重功能。哦對了,他們現在正在做畢業季活動, 贈送很多免費字數,可以說是十分划算了!地址是:h

原创 聲音識別——kaldi安裝與編譯

1、安裝 下載源代碼: git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk --origin golden 各目錄功能: ./tools目錄下面全部都是Kaldi依賴

原创 語音識別——基本概念簡介

寫在前面:做了3年的圖像,沒想到到了工作要轉成語音了。所以既來之,則安之。從今天開始記錄自己從零開始的語音領域的學習,希望利用入職前這兩三個月的時間把基礎知識打好吧O(∩_∩)O 一些基本的概念: 音素(phone):語音的自然屬性劃分出

原创 batch normalization 理解

對batch normalization 一直屬於一知半解狀態,二面被問的一臉懵逼,所以決定好好理一理這個問題。 1、What is batch normalization? batch normalization 其實就是對數據做一個批

原创 Tensorflow系列:Batch-Normalization層

Batch-Normalization有三種定義格式,第一種格式是低級版本,需要先計算均值和方差。後面的兩種是封裝後的,可以直接使用,下面分別介紹:1、tf.nn.batch_normalization  這個函數實現batch_norm

原创 實例分割之——Instace-sensitive Fully Convolutional Networks

背景:FCN只能做實例分割,試想如果兩個挨着在一起的人,只能是一大坨,不能區別到底是幾個人。比如,到底是一個胖子還是兩個瘦子呢?在FCN基礎上面做的改進,利用全卷積實現了Instance-Segmentation。相關工作:1)提出了 i

原创 Faster Rcnn 源碼解析(四)—— proposals_targte_layer.py

功能:     根據GTbox和topN proposals選擇滿足要求的128個proposals(包括fg和bg),然後加上物體類別標籤和bbox的迴歸目標,只有在該類別的對應位置上面纔會有位置信息),並計算權重weights。(這1

原创 Style-Transfer 那些事兒

階段一最初的用神經網絡實現的風格轉換是需要不斷迭代的,不僅速度慢,而且我要在A圖加上B圖的風格,就需要分別根據這兩幅圖進行不斷前反向傳播,更新輸入,每次得到一張新的圖都需要重新訓練一次,效率實在太低。稱之爲style transfer。代

原创 Faster Rcnn 源碼解析(三)—— bbox_transform.py

簡介:這個代碼裏面主要是一些在anchor_targte_layer.py和proposals_layers.py中使用到的一些函數,比較簡單,主要是幫助以上兩個代碼理解。源碼:# ----------------------------

原创 Faster Rcnn 源碼解析(一)—— anchor_targte_layer.py

AnchorTargetLayer層功能:得到所有的anchor,根據GT確定每個anchor的標籤,並得到anchor與最大IOU的GT的偏移量個人理解:這裏就相當於是得到了每個anchor要學習的目標。輸入:  bottom: 'rp

原创 Faster Rcnn 源碼解析(二)—— proposals_layers.py

ProposalLayer層功能:利用NMS提取前topN proposals輸入:ProposalLayer有三個輸入 bottom[0]:是每一個anchor是否是前景的概率,大小爲:(batch_size,2*A,w,h),A表示a