对深度学习反卷积网络的理解

原創

2020-06-23 02:49

在计算机视觉领域，很多模型都用到了反卷积，但是有一点让我很迷惑：有的论文代码中，反卷积是直接调用ConvTranspose2d()函数，而有的是先upsample(上采样)，再卷积，不用转置卷积的函数，为什么呢？然后我就找了网上的各种博客，知乎，终于懂了，现在总结一下。

反卷积的各种叫法

Deconvolutional反卷积
Transposed Convolution转置卷积
inverse Convolution逆卷积

以上是反卷积在CNN中的各种叫法，可代表同一个东西。其实反卷积(Deconvolution)比较容易引起误会，转置卷积(Transposed Convolution)是一个更为合适的叫法。它不同于信号处理中的反卷积deconvolution，网络中的反卷积只能恢复图像尺寸，不能恢复数值。（也就是用一个学习到的卷积核转置做反卷积，不可能得到原来的输入图像，但是得到的图像可以代表原图的部分特征。具体可见论文【1】）【1】Visualizing and Understanding Convolutional Networks

为了避免混淆，再说三个概念：

Deconvolutional反卷积
unsampling上采样
unpooling反池化

这三个概念是不同的，面试时也可能会问到，但都属于上采样（upsample）（注意是up,不是un) 反卷积可以看成是一个可学习的上采样。

常见的上采样方法有双线性插值、转置卷积（反卷积）、上采样（unsampling）和上池化（unpooling）注意，这里的上采样与unsampling是有区别的，“上采样upsample”这个词代表意义更广，而unsampling是一个方法。keras、pytorch框架中专门的Upsample函数是指各种“插值算法”，其中unsampling就是最近邻插值。

反卷积的原理

正向卷积的实现过程

矩阵实现：

输入图像尺寸为4*4，卷积核kernel为3*3，步长strides=1，填充padding=0

（1）

（2）把3*3的kernel展成C，以便于与输入向量相乘

矩阵相乘后，（4*16）*（16*1）=（4*1），把(4,1)的结构再展成(2,2)，最后得到的应该是一个2*2大小的feature map

（简化版，具体可参考https://blog.csdn.net/loveliuzz/article/details/84071246）

原理图：

输入图像为5*5，卷积核kernel为3*3，步长strides=1，填充padding=0

转置卷积的实现过程

反卷积是一种特殊的正向卷积
通俗的讲，就是原矩阵补0+卷积。先按照一定的比例通过补0来扩大输入图像的尺寸，接着旋转卷积核，再进行正向卷积。

矩阵实现：

输入图像尺寸为2*2，卷积核kernel为3*3，步长strides=2，填充padding=1

中间结果矩阵大小为9x4，然后把每一列reshape成 3x3 大小然后往6x6输出上累加，最后再crop出中间部分，就得到结果了

参考知乎：（怎样通俗易懂地解释反卷积？ - 梁德澎的回答 - 知乎 https://www.zhihu.com/question/48279880/answer/838063090）

原理图

输入图像尺寸为3*3，卷积核kernel为3*3，步长strides=2，填充padding=1

与正向卷积不同的是，要先根据步数strides对输入的内部进行填充，这里strides可以理解成输入放大的倍数，而不能理解成卷积移动的步长，由上面的原理图可知，是先填充原图，再以步长为1滑动的。

所以说转置卷积的本质就是内部填0+卷积运算

但为什么现在有些代码会用upsample+卷积代替转置卷积呢？

转置卷积的弊端

关于这一节，可主要参考网址（https://distill.pub/2016/deconv-checkerboard/）

棋盘效应也叫混叠效应，如果参数配置不当，很容易出现输出feature map带有明显棋盘状的现象，以下是原因：

当stride为2的时候，kernel是奇数就会出现网格

3*3的卷积核

5*5的卷积核

当stride为2的时候，kernel是偶数就不会出现网格

2*2的卷积核

4*4的卷积核，只有边缘会有影响

使用能被stride整除的kernel size会抑制棋盘效应。那直接用能被整除的不就行了？错，虽然这样能避免一点，但不能解决根本！（后面举例）【2】【3】

如果是多层堆叠反卷积的话而参数配置又不当，那么棋盘状的现象就会层层传递

所以当使用反卷积的时候参数配置需要特别的小心，mask rcnn的反卷积尺寸就是2*2，步长stride为2的

为了避免混叠效应做的一些尝试

参考【3】

尝试1：使得卷积核大小(4)能被步长(2)整除，但卷积核权重的学习不均匀也会导致伪影现象

尝试2：调整卷积核的权重，适当加大重叠部分少的权重，虽然理论有效，但在实际操作中，不仅有困难也会减弱模型的表达力

尝试3：在反卷积后面，再接一个步长为1的卷积，可以稍微抑制棋盘效应，但效果有限

尝试4（正确的尝试）：调整图像大小（使用最近邻插值或双线性插值），然后执行卷积操作。这似乎是一种自然的方法，大致相似的方法在图像超分辨率方面表现良好

所以说现在大多数论文会用upsample+conv的操作代替转置卷积，下面看一下这两种方法的实验对比

上两行有很明显的棋盘效应

反卷积的应用

反卷积网络可应用在几个方面：（参考：如何理解深度学习中的deconvolution networks？ - 谭旭的回答 - 知乎 https://www.zhihu.com/question/43609045/answer/132235276）

1、卷积稀疏编码。反卷积网络最先在一篇用于无监督学习的重构图像网络中使用。

2、CNN可视化。主要是可视化卷积：将CNN学习到的feature map作为输入，用得到这些feature map的卷积核，取转置作为反卷积块，将图片特征从feature map空间转化到pixel空间，以发现是哪些pixel激活了特定的feature map，达到分析理解CNN的目的。【1】

3、upsampling.也就是用于上采样，比如FCN全卷积网络

主要讲3，如FCN，下面通过pytorch代码看它如何实现的反卷积（转置卷积）

扩大几倍，步长就是几，卷积核设置成步长的2倍

在u-net中的反卷积指的是“上采样+卷积”

【1】Visualizing and Understanding Convolutional Networks

【2】https://distill.pub/2016/deconv-checkerboard/ 对棋盘效应的解释

【3】https://blog.csdn.net/u013289254/article/details/98980517 反卷积(Deconvolution)与棋盘效应(Checkerboard Artifacts)

【4】如何理解深度学习中的deconvolution networks？ - 谭旭的回答 - 知乎 https://www.zhihu.com/question/43609045/answer/132235276

【5】怎样通俗易懂地解释反卷积？ - 梁德澎的回答 - 知乎 https://www.zhihu.com/question/48279880/answer/838063090

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

解读注意力机制原理，教你使用Python实现深度学习模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

文心大模型免费辣，动手搓点啥庆祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

我宣布，这是我找到的史上AI最全论文体系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

文心大模型“你说我画”：PaddleHub与PaddleSpeech的协同实践

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

深度解析大模型推理框架：原理、应用与实践

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

大模型应用与边缘端推理：前沿技术与实现方案

一、大模型概述在人工智能領域，模型的大小和複雜度是衡量其性能的重要指標。大模型通常指的是參數數量龐大、結構複雜的深度學習模型，如GPT-3、BERT等。它們通過訓練大量的數據，能夠捕捉到更豐富的語義信息，從而在各種任務中表現出色。二、大

2024-03-29 11:59:34

大模型推理框架：从理论到实践的全面解析

在數據驅動的時代，深度學習技術已經滲透到各個行業，從圖像識別到自然語言處理，從推薦系統到智能客服，其應用無處不在。然而，深度學習模型的訓練和推理過程往往涉及大量數據和複雜計算，傳統的計算框架難以滿足需求。因此，大模型推理框架應運而生，成爲解

2024-03-23 00:31:01

FastGPT：大模型应用的新里程碑

隨着人工智能技術的不斷進步，大模型在衆多領域的應用已經成爲一種趨勢。FastGPT作爲一種先進的大模型，其強大的自然語言處理能力爲衆多領域帶來了革命性的變革。本文將帶您深入瞭解FastGPT在各個領域的應用，以及大模型應用所面臨的挑戰與前景

2024-03-18 12:35:42

多模态+大模型会带来哪些“化学反应”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

OpenAI文生视频大模型Sora：重塑视频内容生产

在當今信息爆炸的時代，視頻已經成爲了最爲熱門的傳播媒介之一。然而，視頻內容的生產卻是一項極其耗費人力和物力的任務。爲了解決這一問題，美國人工智能公司OpenAI最近發佈了一款名爲Sora的文生視頻大模型，旨在通過AI技術自動化視頻內容的生產

2024-03-04 12:35:26

大模型如何助力开发者打造新质生产力

在當今的AI編程時代，大模型已經成爲了推動技術進步和產業變革的重要力量。大模型，即大型神經網絡，具有海量的參數和複雜的結構，能夠處理更廣泛、更復雜的任務。隨着數據集的擴大和計算能力的提升，大模型在語音識別、自然語言處理、計算機視覺等領域取得

2024-02-26 12:25:04

大模型时代：探索人工智能发展的新动向

在過去的幾年裏，人工智能（AI）已經從一種科幻概念轉變爲現實世界中的實用工具，深刻地改變了我們的生活方式。然而，儘管AI取得了顯著的進步，但它的潛力遠未被完全挖掘。如今，隨着大模型技術的飛速發展，AI正邁入一個新的發展階段，這爲企業和開發者

2024-02-22 12:33:52

文档图像大模型在智能文档处理领域中的应用

隨着人工智能技術的不斷髮展，智能文檔處理已成爲一個備受關注的研究領域。智能文檔處理是指利用計算機技術自動從複雜的非結構化和半結構化文檔中抽取關鍵數據，並將其轉換成結構化數據的過程。在這個過程中，大模型技術發揮着越來越重要的作用。大模型在智

2024-02-19 12:29:56

12 点半！Voxel51 亚太地区计算机视觉线上 Meetup，速来！

7 月 20 日，VOXEL51 亞太地區計算機視覺 Meetup 將於北京時間 12 時 30 分在線上舉行，Zilliz 軟件工程師 Fillip Haltmayer 受邀參與主題分享環節。｜北京時間 20 日中午 12 時 30

2023-07-20 14:17:21

慧博云通加入飞桨技术伙伴计划，共同推动企业AI应用创新

近日，慧博雲通子公司慧博雲通（上海）軟件技術有限公司正式加入飛槳技術夥伴計劃，雙方將共同探索人工智能多場景創新應用，爲企業提供智能化解決方案。慧博雲通慧博雲通科技股份有限公司（股票代碼：301316）成立於2009年，總部位於杭州，公

2023-07-01 00:26:08

24小時熱門文章

最新文章

最新評論文章