感受野 ConvBank

原創

R念念

2020-07-05 23:54

ConvBank，用於擴大感受野，抓取長時信息

感受野是卷積神經網絡裏面最重要的概念之一，爲了更好地理解卷積神經網絡結構，甚至自己設計卷積神經網絡，對於感受野的理解必不可少。

感受野被定義爲卷積神經網絡特徵所能看到輸入圖像的區域，換句話說特徵輸出受感受野區域內的像素點的影響。

pooling爲什麼可以提高感受野呢？

第一個作用是降低feature map的尺寸，減少需要訓練的參數

其次，因爲有縮小的作用，所以之前的4個像素點，現在壓縮成1個。那麼，相當於我透過這1個點，就可以看到前面的4個點，這不就是把當前map的感受野一下子放大了

--pooling降維減少參數量，並且增大感受野。

Tacotron 首提 CBHG

Tacotron: Towards End-to-End Speech Synthesis

Tactron是基於seq2seq model with attention，它包括一個encoder, attention-based decoder, a post-processing net.

模型先使用一系列的一維卷積網絡，有一系列的filter，filter_size從1到K，形成一個Conv1D Bank。這樣的作用相當於使用了一系列的unigrams, bigrams直到K-grams，儘可能多的拿到輸入序列從local到context的完整信息。即K個1-D卷積，第K個卷積核（filter）通道爲k。這些卷積核可以對當前以及上下文信息有效建模。

卷積神經網絡中Filter是怎麼工作的？

輸入層是輸入的圖像，有可能是三通道的有可能是單通道的

filter的最大的特點是其深度與輸入層的深度是一致的。輸入層是單通道，filter也是單通道。輸入層是三通道，filter也是三通道

輸出層的就是filter遍歷輸入層後的的計算結果。輸出層的深度是濾波器的個數，每一個filter遍歷輸入層會產生一個深度的輸出層，那麼n個輸出層就會產生n個深度的輸出層（也就是輸出層的深度啦）

在conv2d中，

假設inpute的四個維度是[batch, in_height, in_width, in_channels]，

filter的四個維度是[filter_height, filter_width, in_channels, out_channels]。

filter的輸入輸出很清楚了，filter的通道數與輸入層的通道數是一致的，就是in_channels

out_channels，有多少輸出通道，就有多少個filter。

https://www.jianshu.com/p/5268b42daeda

https://blog.csdn.net/jiachen0212/article/details/78548667

https://blog.csdn.net/qq_40168949/article/details/87869240

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

感受野 ConvBank

Kafka存儲機制

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

One-shot VC by Separating Speaker and Content Representations with Instance Normalization閱讀

KL散度 L2正則粗略理解

語音數據集整理

數據庫複習補充點

NLP期刊會議

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結