【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】

原創

Hi_AI

2020-06-23 12:30

一、这是google的一篇探索的文章，探讨decoder结构的一篇文章

二、主要贡献点

1、探讨了不同的几种decoder的优劣，提出自己的上采样方案

2、提出针对上采样的residual connection

3、横向多任务对比各种不同方案

三、不同结构decoder的对比

Transposed Convolution：这个也是我们常说的“反卷积” “上采样卷积”，但是要注意这并不是卷积的“反操作”，而是一种类似普通上采样的操作。具体过程分为两步：1、根据放大倍数，填0；2、普通卷积操作。下面这张图非常清晰的显示了，整个过程，3x3的反卷积，总体stride=2.从结构上谈这个模块的缺点的话，我认为主要是输出map的每个pixel的来源不平衡，有的来源2个，有的4个，有的只有1个。3x3的卷积核能否应对h，w较大时，产生一个较好的soomth系数，对于feature map的每个区域都适用？

Decomposed Transposed Convolution：这个如果熟悉inception的人，其实很好理解，把3x3的卷积拆成1x3，和3x1，这样参数就少了，那么整个操作流程就是：先竖着填0，卷积，横着填0，卷积。这是第一种的严格子集。

Separable Transposed Convolution : 这个就是分离卷积，先通道，在1x1，依然是减少参数。这是第一种的严格子集。

Depth To Space ：可以搜下pixel shuffle，基本上就是这个意思。这个会带入“对齐问题”，因为同一组feature maps，虽然不同通道，但是计算来源都是一样的。The drawback of this approach is that it introduces alignment artifacts.为什么呢？我没办法给出一个理论上的解释。有没有人解释下？

Bilinear Upsampling ：增加显存的同时，后续的卷积也会需要更多的操作。

Bilinear additive upsampling ：借鉴 “depth to space”，不同的在于，上采样后，这里直接用加法了，输出的feature map，可以发现，每个pixel来源都是平衡的。

四、上采样residual

用作者的Bilinear additive upsampling + conv（通道增加4倍）输出的为X',在把原始输入经过普通的bilinear upsample得到 X'',加起来就是了。

下面这个图的skip，就是我们Unet常用的那种线，这也基本上证明了，这个skip是有效的，但是作用不是特别大。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【文章阅读】The Devil is in the Decoder【计算机视觉中的上采样方式-6种】

linux安装cuda和cudnn

Mellanox网卡开启SR-IOV

模拟手机设备：使用 Playwright 实现移动端自动化测试

全面系统的AI学习路径，帮助普通人也能玩转AI

HTML 00 Tutorial

从零开始：使用 Playwright 脚本录制实现自动化测试

uni-app实现上拉加载

vue3编译优化之“静态提升”

又是一个月-20240513

flask 如何保证返回json有序

【文章閱讀】The Devil is in the Decoder【計算機視覺中的上採樣方式-6種】

【姿態估計文章閱讀】Structured Feature Learning for Pose Estimation

【姿態估計文章閱讀】Human Pose Estimation with Iterative Error Feedback【這篇文章看的雖然有點迷糊，但是最後有一點很重要，自適應scale】

【姿態估計文章閱讀】PifPaf: Composite Fields for Human Pose Estimation

【文章解讀】FreeAnchor: Learning to Match Anchors for Visual Object Detection

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結