DenseNet

原創

2020-02-21 18:12

2017CVPR Best Paper：《Densely Connected Convolutional Networks》

Github項目主頁： https://github.com/liuzhuang13/DenseNet

知乎上的一些討論：如何評價Densely Connected Convolutional Networks？

DenseNet的高效版本，解決訓練佔用顯存大的問題：《Memory-Efficient Implementation of DenseNets》

DenseNet屬於對ResNet擴展的一系列工作中比較有代表性的一個。

1. 方法介紹

DenseNet整個網絡採用了模塊化設計，其中一個典型網絡模塊結構如下：

如上圖，該模塊共包含4層(BN+ReLU+Conv)。每一層都有一個“短路”或者“跳接”與其後的每一層相連。因此，4層實際上總共產生4+3+2+1=10個連接。

上述結構帶來的優點主要有：

加強了信息前傳，避免了梯度的反傳消失
加強了對特徵的多級綜合高效利用
一定程度上可以使用更少的參數數量來達到相同的效果

2. DenseNet vs. ResNet

如果在Netscope這一網絡結構可視化平臺將DenseNet和ResNet分別進行可視化，你會發現二者的網絡結構 “看起來幾乎一樣”。

這時候你有可能會有疑問：

爲啥DenseNet和ResNet這麼像？
DenseNet那麼多“跳接”去哪了？

解決上面的疑問，請看下面DenseNet和ResNet的對比：

（1）DenseNet採用Concat層來整合不同來源的特徵，而ResNet則採用Eltwise層的加法操作。

DenseNet大部分的優勢都是Concat層帶來的：

Concat層只是特徵拼接，不對特徵做任何改變。因此，只需相鄰層的一個“短接”，後續所有層都可以擁有到該層的“通路”。這些通路意味着更佳的信息前傳與梯度反傳。
Concat層會使得feature map “變厚”，因此即使我們使用更少的卷積參數，feature map也不會因過小而產生信息瓶頸。這也是DenseNet一定程度上參數更少的原因。

（2）DenseNet採用transition層(BN+1x1卷積+2x2AvePooling)來實現下采樣，而ResNet則多采用MaxPooling以及卷積的stride。

（3）DenseNet由於在一個模塊中要使用Concat，因此feature map的大小必須保持不變。而ResNet則會存在下面的這種下采樣的特殊情況：

shuzfan 博客專家

發佈了137 篇原創文章 · 獲贊 876 · 訪問量 164萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

網絡權重初始化方法總結（上）：梯度消失、梯度爆炸與不好的初始化

文章目錄前向傳播與反向傳播回顧梯度消失與梯度爆炸激活函數的影響權重矩陣的影響不良初始化參考博客：blog.shinelee.me | 博客園 | CSDN 前向傳播與反向傳播回顧神經網絡的訓練過程可以簡化成以下步驟，輸入預

2020-06-30 06:07:17

[知乎轉載] BN的具體作用和過程

作者：魏秀參鏈接：https://www.zhihu.com/question/38102762/answer/85238569 來源：知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。 1. What is

2020-06-26 05:41:59

AI知識基礎筆記

在概率論或信息論中，KL散度( Kullback–Leibler divergence)，又稱相對熵（relative entropy)，是描述兩個概率分佈P和Q差異的一種方法。它是非對稱的，這意味着D(P||Q) ≠ D(Q||P)。特

2020-06-23 05:13:13

幾種可分卷積

參考： http://www.sohu.com/a/317166403_394987 0. 標準的2D卷積對於神經元的輸入（7*7*3），用一個3*3*3的卷積覈對輸入進行卷積，得到一個5*5*1的特徵圖：若想得到128個特徵圖，需

你吃过卤汁牛肉吗

2020-06-22 00:40:02

1. 初始化方法

1. 爲什麼要選擇合適的權重初始化在訓練一個神經網絡模型之前，我們需要對模型中的權重進行初始化。這時，選擇一個合適權重初始化方法尤爲重要，一個好的權重初始化方法能夠加速模型收斂減少訓練時間。 2. 合適的初始化方法應

2020-06-21 12:53:23

對於深度學習中 Batch Normallization (BN) 和 Batch Renormalization 的理解

爲什麼需要Batch Normalization？在深度學習中，因爲網絡的層數非常多，如果數據分佈在某一層開始有明顯的偏移，隨着網絡的加深這一問題會加劇（即internal covariate shift），進而導致模型優化的難

2020-06-20 16:17:01

【pytorch閱讀筆記】pytorch基礎知識

本部分共分爲5部分：基本數據 Autograd與計算圖神經網絡工具箱：torch.nn 模型處理 torchvision.model 數據處理 pytorch最大的優勢是可以使用tensor代替numpy進行對應的矩陣操作

Patrick Star@wust

2020-06-20 11:25:06

【數據集轉換】COCO數據集格式

簡介 COCO數據集現在有3種標註類型：object instances（目標實例）, object keypoints（目標上的關鍵點）, and image captions（看圖說話），使用JSON文件存儲。格式結構 {

Patrick Star@wust

2020-06-20 11:25:06

梯度消失和梯度爆炸以及過擬合和欠擬合

其實梯度爆炸和梯度消失問題都是因爲網絡太深，網絡權值更新不穩定造成的，本質上是因爲梯度反向傳播中的連乘效應梯度消失與梯度爆炸梯度消失主要原因：在反向傳播的過程中，每層的梯度大於0小於1（sigmoid函數的最大梯度爲0.25

2020-06-19 04:38:23

損失函數 - Cross Entropy Loss(交叉熵損失函數)

今天看到一篇寫的不錯的關於交叉熵損失的講解，感覺算法的各個步驟講的很詳細清晰，遂在博客中記錄一下。交叉熵損失函數經常用於分類問題中，特別是在神經網絡做分類問題時，也經常使用交叉熵作爲損失函數，此外，由於交叉熵涉及到計算每個類別的概率，所

2020-06-15 04:03:49

迴歸、自迴歸、循環神經網絡（RNN）、LSTM

1 RNN的統計學基礎 1.1 迴歸： Investpedia: Regression refers to the relation between selected values of x and observed values

2020-06-15 03:02:29

內容提要

本書主要服務於深度學習的應用工程師. 努力在數學嚴謹性和工程易用性之間取得平衡. 不適合首次接觸深度學習的讀者, 但非常適合作爲第二本書. 建議深度學習的初學者先從基本概念開始學習, 本書亦有一篇關於入門資料的文章. 市面上已有大

2020-06-11 04:52:45

softmax函數詳解及誤差反向傳播的梯度求導

摘要本文給出 softmax 函數的定義, 並求解其在反向傳播中的梯度相關配套代碼, 請參考文章 : Python 和 PyTorch 對比實現 softmax 及其反向傳播系列文章索引 : https://blog.cs

2020-06-11 04:52:45

深度學習基礎（一）——反向傳播算法

爱弹ukulele的程序猿

2020-05-30 16:57:32

深度學習基礎（六）—— 批標準化 (Batch Normalization)

爱弹ukulele的程序猿

2020-05-30 16:57:32

24小時熱門文章

最新文章

最新評論文章