對深度學習反捲積網絡的理解

原創

2020-06-23 02:49

在計算機視覺領域，很多模型都用到了反捲積，但是有一點讓我很迷惑：有的論文代碼中，反捲積是直接調用ConvTranspose2d()函數，而有的是先upsample(上採樣)，再卷積，不用轉置卷積的函數，爲什麼呢？然後我就找了網上的各種博客，知乎，終於懂了，現在總結一下。

反捲積的各種叫法

Deconvolutional反捲積
Transposed Convolution轉置卷積
inverse Convolution逆卷積

以上是反捲積在CNN中的各種叫法，可代表同一個東西。其實反捲積(Deconvolution)比較容易引起誤會，轉置卷積(Transposed Convolution)是一個更爲合適的叫法。它不同於信號處理中的反捲積deconvolution，網絡中的反捲積只能恢復圖像尺寸，不能恢復數值。（也就是用一個學習到的卷積核轉置做反捲積，不可能得到原來的輸入圖像，但是得到的圖像可以代表原圖的部分特徵。具體可見論文【1】）【1】Visualizing and Understanding Convolutional Networks

爲了避免混淆，再說三個概念：

Deconvolutional反捲積
unsampling上採樣
unpooling反池化

這三個概念是不同的，面試時也可能會問到，但都屬於上採樣（upsample）（注意是up,不是un) 反捲積可以看成是一個可學習的上採樣。

常見的上採樣方法有雙線性插值、轉置卷積（反捲積）、上採樣（unsampling）和上池化（unpooling）注意，這裏的上採樣與unsampling是有區別的，“上採樣upsample”這個詞代表意義更廣，而unsampling是一個方法。keras、pytorch框架中專門的Upsample函數是指各種“插值算法”，其中unsampling就是最近鄰插值。

反捲積的原理

正向卷積的實現過程

矩陣實現：

輸入圖像尺寸爲4*4，卷積核kernel爲3*3，步長strides=1，填充padding=0

（1）

（2）把3*3的kernel展成C，以便於與輸入向量相乘

矩陣相乘後，（4*16）*（16*1）=（4*1），把(4,1)的結構再展成(2,2)，最後得到的應該是一個2*2大小的feature map

（簡化版，具體可參考https://blog.csdn.net/loveliuzz/article/details/84071246）

原理圖：

輸入圖像爲5*5，卷積核kernel爲3*3，步長strides=1，填充padding=0

轉置卷積的實現過程

反捲積是一種特殊的正向卷積
通俗的講，就是原矩陣補0+卷積。先按照一定的比例通過補0來擴大輸入圖像的尺寸，接着旋轉卷積核，再進行正向卷積。

矩陣實現：

輸入圖像尺寸爲2*2，卷積核kernel爲3*3，步長strides=2，填充padding=1

中間結果矩陣大小爲9x4，然後把每一列reshape成 3x3 大小然後往6x6輸出上累加，最後再crop出中間部分，就得到結果了

參考知乎：（怎樣通俗易懂地解釋反捲積？ - 梁德澎的回答 - 知乎 https://www.zhihu.com/question/48279880/answer/838063090）

原理圖

輸入圖像尺寸爲3*3，卷積核kernel爲3*3，步長strides=2，填充padding=1

與正向卷積不同的是，要先根據步數strides對輸入的內部進行填充，這裏strides可以理解成輸入放大的倍數，而不能理解成卷積移動的步長，由上面的原理圖可知，是先填充原圖，再以步長爲1滑動的。

所以說轉置卷積的本質就是內部填0+卷積運算

但爲什麼現在有些代碼會用upsample+卷積代替轉置卷積呢？

轉置卷積的弊端

關於這一節，可主要參考網址（https://distill.pub/2016/deconv-checkerboard/）

棋盤效應也叫混疊效應，如果參數配置不當，很容易出現輸出feature map帶有明顯棋盤狀的現象，以下是原因：

當stride爲2的時候，kernel是奇數就會出現網格

3*3的卷積核

5*5的卷積核

當stride爲2的時候，kernel是偶數就不會出現網格

2*2的卷積核

4*4的卷積核，只有邊緣會有影響

使用能被stride整除的kernel size會抑制棋盤效應。那直接用能被整除的不就行了？錯，雖然這樣能避免一點，但不能解決根本！（後面舉例）【2】【3】

如果是多層堆疊反捲積的話而參數配置又不當，那麼棋盤狀的現象就會層層傳遞

所以當使用反捲積的時候參數配置需要特別的小心，mask rcnn的反捲積尺寸就是2*2，步長stride爲2的

爲了避免混疊效應做的一些嘗試

參考【3】

嘗試1：使得卷積核大小(4)能被步長(2)整除，但卷積核權重的學習不均勻也會導致僞影現象

嘗試2：調整卷積核的權重，適當加大重疊部分少的權重，雖然理論有效，但在實際操作中，不僅有困難也會減弱模型的表達力

嘗試3：在反捲積後面，再接一個步長爲1的卷積，可以稍微抑制棋盤效應，但效果有限

嘗試4（正確的嘗試）：調整圖像大小（使用最近鄰插值或雙線性插值），然後執行卷積操作。這似乎是一種自然的方法，大致相似的方法在圖像超分辨率方面表現良好

所以說現在大多數論文會用upsample+conv的操作代替轉置卷積，下面看一下這兩種方法的實驗對比

上兩行有很明顯的棋盤效應

反捲積的應用

反捲積網絡可應用在幾個方面：（參考：如何理解深度學習中的deconvolution networks？ - 譚旭的回答 - 知乎 https://www.zhihu.com/question/43609045/answer/132235276）

1、卷積稀疏編碼。反捲積網絡最先在一篇用於無監督學習的重構圖像網絡中使用。

2、CNN可視化。主要是可視化卷積：將CNN學習到的feature map作爲輸入，用得到這些feature map的卷積核，取轉置作爲反捲積塊，將圖片特徵從feature map空間轉化到pixel空間，以發現是哪些pixel激活了特定的feature map，達到分析理解CNN的目的。【1】

3、upsampling.也就是用於上採樣，比如FCN全卷積網絡

主要講3，如FCN，下面通過pytorch代碼看它如何實現的反捲積（轉置卷積）

擴大幾倍，步長就是幾，卷積核設置成步長的2倍

在u-net中的反捲積指的是“上採樣+卷積”

【1】Visualizing and Understanding Convolutional Networks

【2】https://distill.pub/2016/deconv-checkerboard/ 對棋盤效應的解釋

【3】https://blog.csdn.net/u013289254/article/details/98980517 反捲積(Deconvolution)與棋盤效應(Checkerboard Artifacts)

【4】如何理解深度學習中的deconvolution networks？ - 譚旭的回答 - 知乎 https://www.zhihu.com/question/43609045/answer/132235276

【5】怎樣通俗易懂地解釋反捲積？ - 梁德澎的回答 - 知乎 https://www.zhihu.com/question/48279880/answer/838063090

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

文心大模型“你說我畫”：PaddleHub與PaddleSpeech的協同實踐

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

大模型應用與邊緣端推理：前沿技術與實現方案

一、大模型概述在人工智能領域，模型的大小和複雜度是衡量其性能的重要指標。大模型通常指的是參數數量龐大、結構複雜的深度學習模型，如GPT-3、BERT等。它們通過訓練大量的數據，能夠捕捉到更豐富的語義信息，從而在各種任務中表現出色。二、大

2024-03-29 11:59:34

大模型推理框架：從理論到實踐的全面解析

在數據驅動的時代，深度學習技術已經滲透到各個行業，從圖像識別到自然語言處理，從推薦系統到智能客服，其應用無處不在。然而，深度學習模型的訓練和推理過程往往涉及大量數據和複雜計算，傳統的計算框架難以滿足需求。因此，大模型推理框架應運而生，成爲解

2024-03-23 00:31:01

FastGPT：大模型應用的新里程碑

隨着人工智能技術的不斷進步，大模型在衆多領域的應用已經成爲一種趨勢。FastGPT作爲一種先進的大模型，其強大的自然語言處理能力爲衆多領域帶來了革命性的變革。本文將帶您深入瞭解FastGPT在各個領域的應用，以及大模型應用所面臨的挑戰與前景

2024-03-18 12:35:42

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

OpenAI文生視頻大模型Sora：重塑視頻內容生產

在當今信息爆炸的時代，視頻已經成爲了最爲熱門的傳播媒介之一。然而，視頻內容的生產卻是一項極其耗費人力和物力的任務。爲了解決這一問題，美國人工智能公司OpenAI最近發佈了一款名爲Sora的文生視頻大模型，旨在通過AI技術自動化視頻內容的生產

2024-03-04 12:35:26

大模型如何助力開發者打造新質生產力

在當今的AI編程時代，大模型已經成爲了推動技術進步和產業變革的重要力量。大模型，即大型神經網絡，具有海量的參數和複雜的結構，能夠處理更廣泛、更復雜的任務。隨着數據集的擴大和計算能力的提升，大模型在語音識別、自然語言處理、計算機視覺等領域取得

2024-02-26 12:25:04

大模型時代：探索人工智能發展的新動向

在過去的幾年裏，人工智能（AI）已經從一種科幻概念轉變爲現實世界中的實用工具，深刻地改變了我們的生活方式。然而，儘管AI取得了顯著的進步，但它的潛力遠未被完全挖掘。如今，隨着大模型技術的飛速發展，AI正邁入一個新的發展階段，這爲企業和開發者

2024-02-22 12:33:52

文檔圖像大模型在智能文檔處理領域中的應用

隨着人工智能技術的不斷髮展，智能文檔處理已成爲一個備受關注的研究領域。智能文檔處理是指利用計算機技術自動從複雜的非結構化和半結構化文檔中抽取關鍵數據，並將其轉換成結構化數據的過程。在這個過程中，大模型技術發揮着越來越重要的作用。大模型在智

2024-02-19 12:29:56

12 點半！Voxel51 亞太地區計算機視覺線上 Meetup，速來！

7 月 20 日，VOXEL51 亞太地區計算機視覺 Meetup 將於北京時間 12 時 30 分在線上舉行，Zilliz 軟件工程師 Fillip Haltmayer 受邀參與主題分享環節。｜北京時間 20 日中午 12 時 30

2023-07-20 14:17:21

慧博雲通加入飛槳技術夥伴計劃，共同推動企業AI應用創新

近日，慧博雲通子公司慧博雲通（上海）軟件技術有限公司正式加入飛槳技術夥伴計劃，雙方將共同探索人工智能多場景創新應用，爲企業提供智能化解決方案。慧博雲通慧博雲通科技股份有限公司（股票代碼：301316）成立於2009年，總部位於杭州，公

2023-07-01 00:26:08

視頻流整理

碼流的計算分辨率 x軸的像素個數*y軸的像素個數常見的寬高比：16:9 4:3 360P/720P/1K/2K：這些都是16:9的寬高比，其中360P爲640*360；720P爲1280*720；1K爲1920*1080，

2023-04-18 01:38:04

「硬核實操」如何擁有一個自己的數字人模型

作者：京東健康陳剛一、前言近年來，隨着人工智能技術，VR，元宇宙等技術的發展，數字人（Digital Human）逐漸成爲研究的熱點之一，數字人是指通過計算機技術模擬出的具有人類外表，動作和語言能力的虛擬人物，具體可以應用到電影、遊

2023-04-03 11:48:52

24小時熱門文章

最新文章

最新評論文章