DFANet: 實時語義分割的深度特徵聚集

原創

2019-09-26 22:16

DFANet: 實時語義分割的深度特徵聚集

DFANet: Deep feature aggrgation for real-time semantic segmention

文章目錄

DFANet: 實時語義分割的深度特徵聚集

相關工作

深度特徵聚集網絡

結論

摘要

【本文工作】本文針對資源限制的語義分割介紹了一個極其高高效的CNN結構，名字叫DFANet。我們提出的網絡從一個單個的輕量骨架開始，通過子網絡和子層級聚集了鑑別性的特徵。基於這些多尺度的特徵傳播，DFANet顯著減少了參數數量，但是仍然獲得了足夠的感受野，以並提升了模型的學習能力，在速度和分割性能上達到了平衡。

【結果】在Cityscapes和CamVid數據集上的實驗展示了DFANet比現存的最先進的實時語義分割，少了8倍的浮點運算次數，速度變成原來的兩倍，同時提供了可以比較的準確率。特別的，在Cityscaps測試數據集上取得了70.3%的平均交併比，僅僅使用了1.7GFLOPS，在一臺NVIDIA Titan X上速度爲160fps。當預測一個更高的分辨率圖像時，取得了71.3%的平均交併比，算力是3。4GFLOPs。

引言

背景、之前工作的缺點

1、語義分割重要，應用很多，速度和準確率是需要解決的問題。

2、之前的實時分割取得了好結果，但是U型結構在高分辨率上花費時間很多。減少時間的工作：限制輸入圖像的大小、修建網絡的冗餘特徵圖），但是損失了空間細節和邊界、小物體。另外，多分支網絡結合空間細節和上下文信息，但是同時也限制了速度，分值之間的相互獨立性限制了模型的學習能力。

3、空間金字塔池化獲取高層上下文，計算消耗很多，可以考慮特徵重用。

本文工作

兩個跨特徵級別的特徵聚集策略：

重用backbone提取的高層特恆
組合不同階段的特徵，提升特徵的表現能力。

細節上:

復現輕量級的backbone驗證方法的有效性。

提出的Deek Feature Aggregation Network, DFANet有三個部分：

輕量級的骨架 —> 修改的Xception+全連接的注意力機制
子網絡聚集單元 —> 上採樣高層特恆，精校預測結果。coarse-to-fine
子階段聚集單元

最後一個輕量級的解碼器和上線性插值生成分割結果。

網絡結構：

圖中：

C是concatenation連接， $\times N$ 代表N個上採樣操作。

貢獻

實時、低算量語義分割的新紀錄
新的網絡結構：內部連接的編碼流，結合了高層上下文。
一個最大化感受野更好的方法、多次精校高層特徵但是計算量增加很少。
修改了Xception，給它增加了一個FC，增大感受野，但是計算量增加不大。

深度特徵聚集網絡

觀察

比較了常見的網絡，作者的做法：

用上採樣替換高層操作，用另一個子網絡替換精校特徵圖。

深度特徵聚集

1、子網絡聚集

就是不停地輸入到骨架中。

骨架定義爲 $y=\Phi(x)$ ， $\Phi_n$ 的輸出馬上作爲 $\Phi_{n+1}$ 的輸入，子網絡聚集可以公式化爲：
$Y = \Phi_n(\Phi_{n-1}(\cdots \Phi_1(X)))$
2、子階段聚集

關注於在多個網絡之間的階段級別上融合語義和空間信息。

U型結構中的skip-connection可以緩輕由於深度增加導致的準確率降低。

作者的做法：在編碼時組合特徵，在相同深度的子網絡中融合不同階段。就是說，一個階段的輸出，作爲下一個階段子網絡的輸入(這不是很顯而易見的嗎？你特徵出來之後，不輸入到下一個層級，還能放哪去？還需要偏偏搞出一個"子階段"聚集。。)

階段處理定義爲 $\Phi_n^i$ ，子網絡聚集就可以公式化爲：
$x_{n}^{i}=\left\{\begin{array}{ll}{x_{n}^{i-1}+\phi_{n}^{i}\left(x_{n}^{i-1}\right)} & {\text { if } n=1} \\ {\left[x_{n}^{i-1}, x_{n-1}^{i}\right]+\phi_{n}^{i}\left(\left[x_{n}^{i-1}, x_{n-1}^{i}\right]\right)} & {\text { otherwise }}\end{array}\right.$
$i$ 代表階段的索引。大概意思就是，第一層可以直接用上一個階段的輸入，加上階段處理後的輸出。

其它層則是用了殘差連接，concatenation。

網絡結構

編碼器：Xception(骨架)

解碼器：上採樣單元(骨架+雙線性插值)

結論

本文中，我們提出深度特徵聚集以處理高分辨率圖上的實時語義分割問題。我們的聚集策略李娜接了一系列的卷積層，以高效地精校高層和低層特徵，而不需要任何特殊設計的操作。分析和在cityscapes、camvid上的定量實驗結果表明了我們方法的有效性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DFANet: 實時語義分割的深度特徵聚集

DFANet: 實時語義分割的深度特徵聚集

文章目錄

摘要

引言

背景、之前工作的缺點

本文工作

貢獻

相關工作

實時分割

深度可分離卷積(Depthwise Separable Convolution)

高層特徵

上下文編碼

特徵聚集

深度特徵聚集網絡

觀察

深度特徵聚集

網絡結構

結論

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

reorder_img函數的作用是什麼？

這幾天刷知乎上看到的好東西

使用`pytables`的時候，出現找不到`DLL`的錯誤，導致程序意外退出。

numpy 中出現shape爲0，處理h5數據時的shape爲0是什麼意思？

【圖解】神經網絡各種層的輸入輸出尺寸計算

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結