感受野 ConvBank

ConvBank,用於擴大感受野,抓取長時信息

 

感受野是卷積神經網絡裏面最重要的概念之一,爲了更好地理解卷積神經網絡結構,甚至自己設計卷積神經網絡,對於感受野的理解必不可少。

 

感受野被定義爲卷積神經網絡特徵所能看到輸入圖像的區域,換句話說特徵輸出受感受野區域內的像素點的影響。

 

pooling爲什麼可以提高感受野呢?

第一個作用是降低feature map的尺寸,減少需要訓練的參數

其次,因爲有縮小的作用,所以之前的4個像素點,現在壓縮成1個。那麼,相當於我透過這1個點,就可以看到前面的4個點,這不就是把當前map的感受野一下子放大了

--pooling降維減少參數量,並且增大感受野。

 

Tacotron 首提 CBHG

Tacotron: Towards End-to-End Speech Synthesis

Tactron是基於seq2seq model with attention,它包括一個encoder, attention-based decoder, a post-processing net.

模型先使用一系列的一維卷積網絡,有一系列的filter,filter_size從1到K,形成一個Conv1D Bank。這樣的作用相當於使用了一系列的unigrams, bigrams直到K-grams,儘可能多的拿到輸入序列從local到context的完整信息。即K個1-D卷積,第K個卷積核(filter)通道爲k。這些卷積核可以對當前以及上下文信息有效建模。

 

卷積神經網絡中Filter是怎麼工作的?

輸入層是輸入的圖像,有可能是三通道的有可能是單通道的

filter的最大的特點是其深度與輸入層的深度是一致的。輸入層是單通道,filter也是單通道。 輸入層是三通道,filter也是三通道

輸出層的就是filter遍歷輸入層後的的計算結果。輸出層的深度是濾波器的個數,每一個filter遍歷輸入層會產生一個深度的輸出層,那麼n個輸出層就會產生n個深度的輸出層(也就是輸出層的深度啦)

在conv2d中,

假設inpute的四個維度是[batch, in_height, in_width, in_channels],

filter的四個維度是[filter_height, filter_width, in_channels, out_channels]。

filter的輸入輸出很清楚了,filter的通道數與輸入層的通道數是一致的,就是in_channels

out_channels,有多少輸出通道,就有多少個filter。

https://www.jianshu.com/p/5268b42daeda

https://blog.csdn.net/jiachen0212/article/details/78548667

https://blog.csdn.net/qq_40168949/article/details/87869240

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章