譯文：FishNet

FishNet:用於圖像、區域和像素級的多功能主幹網絡

摘要對於預測不同層級的目標對象（如圖像級、區域級和像素級），設計卷積神經網絡（CNN）結構的基本原則具有多樣性。一般來講，專門爲圖像分類任務所設計的網絡結構，會默認作爲其他任務（包括檢查和分割）的主幹網絡結構。但是，多數網絡的主幹設計並沒有考慮統一網絡的優勢，而爲像素級或區域級的預測任務設計主幹網絡，原因可能是需要更高分辨率的深層特徵。爲了實現這一目標，本文設計了一個類似魚形的主幹網絡，我們稱爲FishNet。在FishNet中，所有的解決方案信息都會被保留，並在最後的任務進行精煉。除此之外，我們觀察到，現存的工作並不能直接將梯度信息從深層網絡傳遞給淺層網絡，而本文的設計可以更好地處理該問題。爲了驗證FishNet的性能表現，我們進行了大量實驗。特別地，在ImageNet-1k數據集上，在參數較少的情況下，FishNet的性能可以完全超過DenseNet和ResNet。FishNet已經被應用在贏得2018年COCO檢測挑戰賽的一個模塊中。代碼被公開在：https://github.com/kevin-ssy/FishNet。

1 簡介

在計算機視覺領域中，卷積神經網絡（CNN，Convolutional Neural Network）已經被認爲學習更好特徵表達的最有效的方法[17, 26, 28, 9, 37, 27, 4]。CNN結構的設計也成爲一項基本任務，良好的結構有助於提高許多相關性視覺任務的性能。隨着CNN層設計的加深，近來的工作試圖通過恆等映射[8]和直連接[13]來改進或重用前一層的網絡特徵。

此時，對於圖像級、區域級和像素級的任務，在設計CNN結構上開始變得多樣化。對於圖像分類任務，網絡往往使用連續下采樣來獲得低分辨率的深度特徵。然而，低分辨率的特徵並不適用於像素級任務，甚至是區域級任務。如果直接將高分辨率的淺層特徵用於區域和像素級任務，模型應用效果卻難以令人滿意。爲了獲得更深層的高分辨率特徵，對於像素級任務，已知的較好的網絡結構如U-Net和沙漏狀網絡[22, 24, 30]。近來，對於區域級任務（如目標檢測）的研究也使用具有上採樣機制的網絡結構[21, 19]，通過這種方式可以用相對高分辨率的深層特徵描述小尺度物體對象。

在已經將高分辨率深層特徵用於區域級和像素級任務的基礎上，本文提出一種魚狀網絡，即FishNet。它可以使高分辨率的深層特徵包含高級別語義信息。通過該方式，將經過圖像分類任務預訓練的特徵可以更好的用於區域級和像素級任務。

本文精心設計了一種具有以下三個優點的網絡結構。

第一，它是第一個結合了各類網絡結構優勢的主幹網絡，並且是爲像素級、區域級和圖像級三類任務而設計的網絡。與僅爲圖像分類任務而設計的網絡相比，本文的主幹網絡對於處理像素級和區域級任務有更好的效果。

圖1. ResNet（圖左）和FishNet（圖右）的上/下采樣模塊。黃色顯示的爲1×1卷積層，由於其爲孤立卷積層（孤立卷積層，見章節2），這使得其得其無法通過直接BP完成輸出層到淺層網絡的梯度下降。

第二，它可以使極深層網絡的梯度直接傳遞給淺層網絡，本文稱爲直接BP。最近的研究表明，有兩種設計可以完成直接BP，即通過殘差塊完成恆等映射[8]和直連接方式[13]。但是，不可否認的事實是現有網絡的設計，如[9, 8, 13, 28, 34, 32]，仍然無法使用直接BP。造成該問題的原因是卷積層之間的特徵分辨率不同。如圖1所示，ResNet[9]利用跳躍連接具有步幅的卷積層來處理輸入與輸出通道數量不一致的問題，這使得恆等映射並沒有使用。沒有恆等映射或直連接的卷積層降低了輸出到淺層網絡的梯度。我們的結構設計更好地解決了這個問題，即將不同深度的特徵直接連接最後的輸出層。我們更加精細的設計了網絡中的結構，以保證直接BP。通過本文的設計，特徵的語義信息也可以在網絡中得以保留。

第三，網絡中，不同深度的特徵被保留下來，並用於進一步的特徵精細化提取。不同深度的特徵對於圖像的抽象程度不同。所以，對於這些特徵都應該予以保存，以提高特徵的多樣性。同時，這些特徵之間具有互補性，它們可以用來進行精細化提取。因此，我們設計了一種特徵保持與精細化提取機制，去實現本文的最終目標。

本文的設計可能會有一個反直覺的效果，即在參數數量與圖像分類精度的權衡中，它比傳統的卷積網絡表現得更好。原因如下：（1）保留特徵和互補精細化提取，遠比設計寬度或深度更大的網絡更有用；（2）它有助於直接BP。實驗結果表明，我們的緊湊模型FishNet-150的參數量接近於ResNet-50，而在ImageNet-1k數據集上的精度卻能超過ResNet-101和DenseNet-161（k=48）。同時，對於區域級和像素級的任務，如目標檢測和實例分割，我們的模型作爲Mask R-CNN[10]的主幹網絡與基於ResNet-50的Mask R-CNN相比，在MS COCO數據集上AP值分別提高了2.8%和2.3%。

1. 1相關工作

對於圖像分類任務的CNN結構。深層卷積神經網絡的結構設計是深度學習中一項基礎卻極具挑戰性的任務。優秀的網絡可以有更好的特徵提取能力，這也會提高許多處理其他任務的性能。AlexNet[17]在圖像識別挑戰賽ILSVRC[25]上的顯著效果提升，標誌着計算機視覺深度學習時代的來臨。在此之後，許多網絡設計出現，如VGG[26]、Inception[28]，所有的這些網絡都是通過加深網絡來提升其能力。然而，由於梯度消失的問題，此時的網絡仍然無法設計過深。近來，在網絡中引入跳躍連接[9]，極大地緩解了梯度消失問題。在這個方面上有系列正在進行的工作[29, 34, 32, 13, 2, 11, 31, 33]。但是，對於圖像分類任務，在已有的所有網絡設計中，高分辨率的特徵是由感受野較小的淺層網絡提取的，缺乏僅能在深層網絡中獲得的高級語義信息。我們的工作是首次提取高分辨率深層特徵和高級語義信息，同時提高圖像分類的精度。

採用不同層特徵結合的網絡結構設計。通過使用嵌套稀疏網絡[16]、超列[7]、加法[18]和殘差塊[22, 21]（卷積與反捲積均使用殘差塊）等方法組合，可以得到不同分辨率或深度的特徵。在文獻[7]中，超列網絡直接將來自不同層的特徵進行連接後，用於圖像分割和目標定位。但是，這種方法並沒有將深層和淺層網絡的特徵進行相互精細化提取。文獻[8]使用直接相加將深層與淺層網絡的特徵進行融合。然而，該方法只能將不同抽象級的特徵進行混合，並不能同時保留或細化該混合特徵。同樣，採用卷積的串聯方法與文獻[8]的方法類似[23]。另外，殘差塊[22, 21]也會被用於組合特徵，前提是已完成的工作必須給出一個預定的目標，等待特徵的精細化提取。假如跳躍層是爲了得到深度特徵，那麼淺層特徵僅起到精細化提取出深度特徵的作用，在此情況下，淺層特徵也會在經過殘差塊之後被丟棄。綜上所述，在現有的工作中，採用相加和殘差塊並不能保存淺層和深層的特徵，而我們設計的網絡卻可以很好的保存並精煉這些特徵。

使用上採樣機制的網絡。由於計算機視覺領域還有許多其他任務，如目標檢測和目標分割，這些任務都需要較大的特徵圖來保證分辨率，所以，將上採樣方法應用到網絡中顯得十分必要。這類方法通常包括不同深度的特徵之間的信息交互。U-Net[24]、FPN[21]、堆疊沙漏網絡[22]等一系列工作都展示了這類方法在像素級[22]和區域級任務[21, 19]的能力。但是，在圖像分類任務上，這些方法都沒有被證明是有效的。MSDNet[12]嘗試保持高分辨率的特徵圖，這是與我們的網絡結構最相似的工作。當然，MSDNet的結構仍然使用不同分辨率的特徵，這也造成特徵無法保存和表示。此外，該方法並沒有採用上採樣的方式，讓特徵具有更大的分辨率和更多的語義信息。DMSNet在結構中引入多尺度機制的目的僅是計算預測。但是，這種設計對於圖像分類的準確度並沒有顯著的提升。我們的工作則保留和精細化了來自淺層和深層的特徵，這在現有的上採樣網絡和MSDNet方法中是無法實現的。

特徵/輸出之間的信息傳遞。目前，一些方法可以使用特徵之間的信息傳遞來完成分割[36]、姿態估計[3]和目標檢測[35]。這些設計均基於主幹網絡架構的設計，而FishNet是對於主幹網絡設計很好的補充。

2 深度殘差網絡與孤立卷積之間的恆等映射

ResNet的基本構建模塊被稱爲殘差塊。具有恆等映射[8]的殘差塊可以表示爲

xl+1=xl+F(xl,Wl) (1)

其中，xl表示 l層殘差塊的輸入特徵，F(xl,Wl)表示輸入xl與權重參數Wl的殘差函數。我們考慮將分辨率相同的所有殘差塊進行堆疊，作爲一個階段。用xl,s表示階段s的第l層特徵，可以得到：

xLs,s=x0,s+l=1LsFxl,s,Wl,s,

∂L∂x0,s=∂L∂xLs,s(1+∂∂x0,sl=1LsFxl,s,Wl,s)

(2)

式中，Ls表示階段s堆疊的殘差塊數量，L是一個損失函數。式子（2）中的附加項∂L∂xLs,s是確保xLs,s的梯度直接傳遞給x0,s。我們認爲不同分辨率的特徵處於不同的階段。在之前的ResNet中，不同分辨率的特徵在信道數量上是不同的。因此，需要轉換函數h(∙)在下采樣之前改變信道數量：

x0,s+1'=hxLs,s=σ(λs⊗xLs,s+bLs,s)

(3)

圖2. FishNet概述。它由三部分組成。尾部使用現有的工作從輸入圖像中獲取深度低分辨率特徵。身體部位獲取包含高級語義信息的高分辨率特徵。頭部保留並精細化提取從這三部分中獲得的特徵。

式中，σ(∙)是一個激活函數。λs和bLs,s分別是階段s過渡層的濾波器和偏置。符號⊗代表卷積運算。由於xLs,s和x0,s+1'的信道數量不同，所以恆等映射並不適用。

孤立卷積（I-conv）的梯度傳遞問題。孤立卷積（I-conv）是式子（3）中沒有恆等映射和直連接的卷積層。通過文獻[8]中的實驗分析與驗證，它希望將深層網絡的梯度直接傳遞到淺層網絡。採用恆等映射的殘差塊[8]和採用直連接的密集塊[13]都會促進直接梯度傳遞。如果存在I-conv，則深層的梯度並不能直接傳遞到淺層。而ResNet[8]在不同分辨率的特徵之間存在I-conv，I-conv（在文獻[13]中被稱爲過渡層）也存在於相鄰的密集塊之間，但是，這些方式均會阻礙梯度的直接傳遞。由於ResNet和DenseNet仍然存在I-conv，來自輸出層的梯度並不能直接傳遞給淺層網絡，這也類似於文獻[17, 26]中的網絡。文獻[15]中的可逆下采樣放大通過將當前階段所有特徵用於下一階段的方式避免該問題。但是，這種方式的問題是，隨着階段數量的增加（在文獻[15]中爲188M），參數量將隨着指數形式進行增加。通過分析，我們已經確定了現有網絡中I-conv的梯度傳遞問題。因此，爲了解決該問題，我們提出一種新的網絡結構，即FishNet。

3 魚網（FishNet）

圖2展示FishNet的概述。整個網絡分爲三個部分：尾部、身部和頭部。魚尾部爲一個現有的CNN結構，例如ResNet，隨着CNN的深入，特徵的分辨率會越來越小。魚身體部位包含上採樣和精細化提取塊，用於精煉提取尾部和身部的特徵。魚頭部包含下采樣和精細化提取塊，用於保存和精煉提取尾部、身部和頭部的特徵。頭部的最後一個卷積層的精細化特徵被用於最終的任務決策。

本文中的階段是指提取相同分辨率特徵的一組卷積塊。根據輸出特徵的分辨率，FishNet的各個部分可以分爲多個階段。隨着特徵分辨率的減小，階段的ID也會變高。例如，輸出分辨率爲56×56和28×28的卷積塊分別位於FishNet三個部分中的第1階段和第2階段。因此，在魚尾部和頭部中，在完成網絡前向傳播時的階段ID會越來越高，而在魚身部的階段ID會越來越小。

圖3顯示兩個階段的特徵在尾部、身部和頭部之間的相互作用。圖3（a）中的魚尾部可以看做殘差網絡。來自尾部的特徵通過幾個殘差塊後，也通過水平箭頭傳遞到身部。圖3（a）中的身部通過直連接既保留尾部特徵，又保留身部上一階段的特徵。之後，這些特徵將被用於上採樣和精細化提取，具體細節如圖3（b）所示，關於UR塊的細節將在第3.1節中進行探討。經過精細化後的特徵隨後被用於身部和頭部的下一階段。頭部會保留和精細化身部和頭部上一階段的所有特徵。然後，頭部的下一階段會使用精細化過的特徵。頭部的信息傳遞的詳細表示如圖3（c）以及在3.1節中繼續探討。水平連接表示尾部、身部和頭部之間的信息傳輸模塊。在圖3（a）中，我們使用殘差塊作爲

圖3. （可以使用放大，以更好的看清顏色）（a）兩個階段的特徵在尾部、身部和頭部之間的相互作用，右側所列兩張圖顯示（b）上採樣過程和精細化塊（UR塊），（c）下采樣過程和精細化塊（DR塊）。在圖（a）中，當垂直與水平箭頭相交時，使用特徵直連接。符號C*、*H和*W分別表示圖像信道數、高度和寬度。k表示3.1節中方程式8中所數的信道數遞減率。注意：魚身部和頭部並沒有孤立卷積層（I-conv）。因此，損失的梯度可以直接傳遞到尾部、身部和頭部的淺層網絡。

傳輸塊。

3. 1特徵精細化

在FishNet中，有兩個模塊用於上/下采樣和特徵精細化：上採樣和精細化模塊（UR塊），下采樣和精細化塊（DR塊）。

UR塊。使用xst和xsb分別表示尾部和身部在s階段第一層的輸出特徵。s∈{1, 2,…,min⁡(Nt-1,Nb-1)}，Nt和Nb分別代表尾部和身部的階段數量。將特徵的直連接表示爲concat(∙)。UR塊可以表示爲：

xs-1b=URxsb,Txst=up(xs'b) (4)

式中，T表示將尾部的特徵xs-1t轉移到身部的殘差塊。up(xs'b)表示在魚身部對前一階段的特徵進行精細化。下一階段的輸出特徵xs-1b是由xst和xsb共同精煉得到：

xs-1b=up(xs'b) (5)

xs'b=rxsb+M(xsb) (6)

xsb=concat(xsb,T(xst)) (7)

式子中，up(∙)表示上採樣函數。總結，UR塊在式子（7）中將來自身部和尾部的特徵進行直連接並在式子（6）中完成精細化，之後，在式子（5）中進行上採樣獲得輸出特徵xs-1b。式子（6）中的M爲從特徵xsb中提取信息函數，我們將M作爲卷積運算。類似於式子（1）中的殘差函數F，式子（6）中的M也是由三層卷積構成的殘差單元實現。式子（6）中的信道衰減函數r可以如下表示：

rx=x=x1,x2,…,xcout,

xn=j=0kxk∙n+j, n∈{0,1,..,cout}

(8)

式子中，x={x1, x2,…,x(cin)}表示輸入特徵圖的cin個信道，x表示函數r的輸出特徵圖的cout個信道，cincout=k。整體式子是從相鄰的k信道到1信道的特徵圖像素級的求和。我們使用這樣的簡單操作使得信道數減少到1/ k，這種方式讓連接前一階段的信道數量減少，以減小計算量和參數量。

DR塊。位於頭部的DR塊與UR塊類似。在它們之間僅有兩種不同的實現方式。第一種，我們在DR塊中使用2×2最大池化層進行下采樣。第二種，在DR塊中，並不使用UR塊中的信道衰減函數，因此在當前階段的梯度可以直接傳遞給上一階段的參數。在式子（5）-（7）的UR塊基礎上，DR塊的可以用下式表示：

xs+1h=down(xs'h)

xs'h=xsh+M(xsh) (9)

xsh=concat(xsh,T(xsb))

式子中，xs+1h表示階段s+1的頭部特徵。這樣，整個網絡的各個階段的特徵都能夠通過直連接、跳躍連接和最大池化連接到最後一層。注意，我們並沒有使用式子（6）中的信道求和操作r(∙)從式子（9）中DR塊的xsh來獲取xsh。因此，在DR塊的xsh獲取xsh的網絡層實際上可以被看作爲一個殘差塊[8]。

3. 2 詳細設計與討論

FishNet對於梯度傳遞問題的設計。在FishNet中設計了魚身部和魚頭部，在魚尾部和魚身部的所有階段的特徵都被直連在魚頭部。我們精心設計了魚頭部的網絡層，使其不存在I-conv層。魚部的網絡層由直連接、附帶恆等映射的卷積層和最大池化層組成。因此，FishNet解決了之前主幹網絡在尾部的梯度傳遞問題，具體措施爲（1）移除頭部的I-conv層；（2）在身部和頭部使用直連接。

上/下采樣的選擇。對於下采樣，卷積核尺寸爲2×2，步幅爲2，以避免像素之間重疊。模型簡化測試將會顯示不同尺寸卷積覈對網絡的影響。爲了避免I-conv影響，儘量不要在上採樣階段採用權重反捲積計算。爲減少計算量，我們採用最近鄰插值法進行上採樣。由於在上採樣過程中會以較低的分辨率稀釋輸入特徵，因此，我們在精細化模塊中使用擴張卷積。

魚身部和尾部之間的橋連接模型。由於尾部將圖像進行下采樣得到分辨率爲1×1的特徵圖，所以，需要在身部將1×1的特徵上採樣到7×7。我們在這裏使用了一個SE模塊[11]，即採用信道注意力機制將特徵分辨率從1×1上升到7×7。

4 實驗與結果

4. 1圖像分類任務的實現細節

對於圖像分類任務，在包含1000類的ImageNet2012數據集[25]上，我們對本文提出的網絡進行了驗證。此數據集包含120萬張訓練集和5萬張驗證集圖像（以ImageNet-1k val表示）。我們使用目前流行的深度學習框架PyTorch[23]實現了FishNet。對於訓練，我們對圖像進行隨機裁剪並統一分辨率爲224×224，批量大小爲256，並選擇隨機梯度下降算法作爲優化方法，基礎學習率爲0.1。權重的衰減值和衝量值分別爲10-4和0.9。我們對網絡進行了100個輪次的訓練，學習率每30輪次下降10倍。對於正則化過程，我們首先將每個像素值約束到[0,1]之間，然後，再減去平均值以及除以RGB模型每個信道的方差。爲了公平比較，我們使用了文獻[9]中的數據增強方法（隨機裁剪、水平翻轉和標準色增強[17]）。本文所有的實驗結果都是在ImageNet-1k數據集上通過單目標驗證過程得出。較爲特殊的是，尺寸爲224×224的圖像區域會從輸入圖像的中心進行剪切出來，而該區域的短邊會被放縮到256。224×224的圖像區域爲網絡的輸入尺寸。

FishNet是一個框架。它沒有特定的構建模塊。對於本文的實驗驗證結果，FishNet使用帶有恆等映射的殘差塊[8]作爲基礎構建模塊，FishNeXt使用帶有恆等映射和組正則的殘差塊[29]作爲基礎構建模塊。

4. 2 ImageNet數據集實驗結果

圖4展示了在ImageNet-1k驗證數據集上，ResNet、DenseNet和FishNet三種方法的參數量與Top-1錯誤率的對比。當我們的網絡使用預訓練的ResNet參數作爲FishNet尾部初始參數時，FishNet的性能遠高於ResNet和DenseNet。

FishNet vs. ResNet。爲了公平的對比，我們重新部署了ResNet，並在圖4中展示了ResNet-50和ResNet-101的結果。在我們的報告中，帶有恆等映射的ResNet-50和ResNet-101對於單目標識別的結果要高於原文[9]中的結果，主要原因是我們選擇預訓練的殘差塊參數作爲網絡的基本構建模型。與ResNet相比，FishNet顯著地降低了錯誤率。而FishNet-150（錯誤率21.93%，參數量26.4M），其參數量僅接近ResNet-50（錯誤率23.78%，參數量25.5M），但是其性能卻超過ResNet-101（錯誤率22.30%，參數量44.5M）。依據FLOPs（每秒浮點運算次數），如圖4右所示，對比ResNet，FishNet也可以通過較低的FLOPs實現更好的識別效果。

FishNet vs. DenseNet。DenseNet通過直連接以迭代方式融合相同分辨率的特徵，之後，通過過渡層減少每個密集塊之間的維度。根據圖4的結果，DenseNet可以使用更少的參數卻能在識別精度上超越ResNet。由於FishNet保留了更好的多樣性特徵，以及合理的解決梯度傳遞問題，所以，FishNet比DenseNet的參數更少，而性能更好。此外，FishNet的存儲成本也低於DenseNet。以FishNet-150爲例，當在單個GPU上將批量大小設置爲32時，FishNet-150的內存佔有量爲6506M，比DenseNet-161（9269M）的內存佔有

圖4. 分類任務Top-1（Top-5）錯誤率對比展示，採用方法爲FishNet、DenseNet和ResNet。使用數據集爲ImageNet驗證集（單目標測試）。左圖爲參數量作爲橫軸，右圖爲FLOPs作爲橫軸。

表1：對於ResNeXt的結構，其在ImageNet-1k數據集的驗證集上的Top-1錯誤率。FishNeXt-150（4d）中的4d表示一個組中最小的信道數量爲4。表2：對於FishNet-150，採用不同下采樣方法在ImageNet-1k數據集的驗證集上的Top-1錯誤率。

量減小了2764M。

FishNeXt vs. ResNeXt。FishNet的結構可以與其他類型網絡設計相結合，例如ResNet Xt採用的信道分組。我們的網絡遵循的標準是，同一階段的一組中每個模塊（UR/DR模塊和傳輸模塊）的信道數應相同。當階段指數增加1時，單個組的寬度增加1倍。這樣，基於ResNet的FishNet可以構建成基於ResNeXt的網絡，即FishNeXt。我們使用2600萬個參數構建了緊湊模型FishNeXt-150。FishNeXt-150的參數量接近與ResNeXt-50。從表1中看出，與相應的ResNeXt框架相比，我們的網絡將Top-1的錯誤率減少了0.7%。

4. 3消融學習

池化 vs. 卷積步長。我們探究了基於FishNet-150網絡的四種下採樣方式，包括卷積法、採用核尺寸爲2×2和3×3的最大池化法、採用核尺寸爲2×21的平均池化法。如表2所示，採用核尺寸爲2×2的最大池化方法要優於其他方法。跨步卷積將會阻止梯度直接傳遞到淺層網絡，而池化操作不會。我們還發現使用核尺寸爲3×3的最大池化的識別效果要低於核尺寸爲2×2的最大池化方法，原因是3×3的池化層內核存在池化重疊問題，可能會干擾網絡的結構信息。

擴張卷積。Yu等人[32]發現空間視敏度的損失可能會限制圖像分類的準確度。在FishNet中，UR塊會稀疏原有的低分辨率特徵，因此，在FishNet中採用擴張卷積。當在魚身部使用擴張卷積核進行上採樣時，對於FishNet-150網絡的Top-1誤差率下降了0.13%。但是，與未引入擴張卷積的模型相比，在魚身部和頭部均採用擴張卷積的情況下，絕對誤差增加了0.1%。此外，我們將第一層的7×7的步幅卷積替換爲兩個殘差塊，這將Top-1誤差率減小了0.18%。

4. 4 MS COCO數據集的實驗研究

我們在MS COCO[20]數據集上評估了FishNet對目標檢測和實例分割的泛化能力。爲了公平對比，我們復現的所有模型實驗均採用相同的設置，除了主幹網絡的參數設置不同。關於目標檢測和實例分割任務，本文實驗結果的代碼與記錄均公佈在文獻[1]中。

數據集與評價。MS COCO數據集[20]是目標檢測和實例分割任務中最具有挑戰性的數據集之一。數據集包含80個類別，並帶有包圍框和像素實例標註。

表3. MS COCO val-2017數據集，對於不同算法的的檢測和分割平均精度（AP， Average Precision（%））。APs和APd分別表示分割和檢測的平均精度。APS、APM和APL分別表示對於小目標、中目標和大目標的AP值。本文設計的主幹網絡分別應用與兩種不同的分割和檢測方法，例如Mask R-CNN[10]和FPN[21]。我們使用符號†表示我們復現的網絡模型。FishNet-150不使用信道分組，以及它的總體參數量接近與ResNet-50和ResNeXt-50。

數據集由11.8萬張訓練圖像（train-2017）和5千張驗證圖像（val-2017）組成。我們在train-2017數據上進行模型訓練並在val-2017數據上得出實驗結果。我們使用標準的COCO評估指標AP（不同IOU閾值下的平均mAP）[10]和APs、APM、APL（不同尺度的AP值）評價所有模型。

實驗細節。我們在PyTorch[23]框架下重新復現了圖像金字塔網絡（FPN）和Mask R-CNN，並在表3中公佈了復現的實驗結果。我們復現的實驗結果與Detectron[5]（官方公佈的源碼）實驗結果相近。包括FishNet在內，我們在16個GPU上對所有網絡進行訓練，批量大小爲16（每一個GPU包含一批），共訓練32個總輪次。訓練優化方法採用SGD，初始學習率爲0.02，在第20輪和第28輪次學習率衰減10倍。因爲批量尺寸較小，我們整個訓練過程的網絡中BN層[14]爲固定設置。在第1個輪次進行預訓練，在前2個輪次，梯度被限制在最大超參數5.0以下，用以處理初始訓練階段較大的梯度值下降。網絡的輸入尺寸被固定爲224×224.我們使用0.0001的權重衰減值和0.9的衝量值。網絡以端到端的方式進行訓練和測試。實驗中的所有其他超參數均遵循文獻[5]的設置。

基於FPN的目標檢測結果。我們將FishNet-150作爲FPN主幹網絡對Val-2017數據進行了驗證實驗，以供對比。我們將FPN自上而下的路徑與側向連接與魚頭部連接，構成整體檢測網絡。如圖3所示，相比於ResNet-50和ResNeXt-50，FishNet-150分別取得了2.6%和1.3%的AP值增加。

基於Mask R-CNN的實例分割與目標檢測結果。與FPN採用類似的處理，我們將FishNet融入Mask R-CNN同時完成目標的分割與檢測。如表3所示，對於實例分割任務，與ResNet-50和ResNeXt-50相比，獲得了2.3%和1.3%的AP值增加。此外，當網絡以這種多任務的方式進行訓練時，目標檢測的性能會更好。對於目標檢測任務，使用FishNet的Mask R-CNN方法，相比於ResNet-50和ResNeXt-50，AP值分別提高了2.8%和1.5%。

需要注意的是，FishNet-150不使用信道分組，FishNet-150的參數量與ResNet-50和ResNeXt-50接近。與ResNeXt-50相比，對於圖像分類任務，FishNet-150僅降低了0.2%d的絕對錯誤率，而對於目標檢測和實例分割，它分別提高了1.3%和1.5%的AP值。由此可見，FishNet爲目標檢測區域級任務和分割的像素級任務提供了更加有效的特徵。

2018年的COCO檢測挑戰賽。FishNet是獲勝方法的主幹網絡之一。通過將FishNet嵌入我們的框架中，單模型FisNeXt-229可以在測試集上對實例分割任務實現43.4%的精度。

5 結論

在本文中，我們提出新的CNN網絡結構，該結構結合了針對不同級別目標識別任務的網絡設計的優勢。特徵保存和精細化處理設計不僅有助於解決直接梯度傳遞問題，而且對於像素級和區域級的任務更加適用。實驗結果驗證了我們的網絡的優點。對於未來的工作，我們將對網絡進行更加細緻的設置，例如每個信道/模塊的數量選擇，以及與其他架構的網絡的集成方式。未來，我們還將會報告在兩個數據集上較大模型的性能結果。

參考文獻

K. Chen, J. Pang, J. Wang, Y. Xiong, X. Li, S. Sun, W. Feng, Z. Liu, J. Shi, W. Ouyang, C. C. Loy, and D. Lin. mmdetection. https://github.com/ open-mmlab/mmdetection, 2018.
Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. In Advances in Neural Information Processing Systems, pages 4470–4478, 2017.
X. Chu, W. Ouyang, X. Wang, et al. Crf-cnn: Modeling structured information in human pose estimation. In Advances in Neural Information Processing Systems, pages 316–324, 2016.
P. Gao, H. Li, S. Li, P. Lu, Y. Li, S. C. Hoi, and X. Wang. Question-guided hybrid convolution for visual question answering. arXiv preprint arXiv:1808.02632, 2018.
R. Girshick, I. Radosavovic, G. Gkioxari, P. Dollár, and K. He. Detectron. https://github.com/facebookresearch/detectron, 2018.
P. Goyal, P. Dollár, R. Girshick, P. Noordhuis, L. Wesolowski, A. Kyrola, A. Tulloch, Y. Jia, and K. He. Accurate, large minibatch sgd: training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017.
B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and finegrained localization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 447–456, 2015.
K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In European Conference on Computer Vision, pages 630–645. Springer, 2016.
K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
K. He, G. Gkioxari, P. Dollár, and R. Girshick. Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2980–2988. IEEE, 2017.
J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507, 2017.
G. Huang, D. Chen, T. Li, F.Wu, L. van der Maaten, and K. Q.Weinberger. Multi-scale dense convolutional networks for efficient prediction. arXiv preprint arXiv:1703.09844, 2017.
G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten. Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2017.
S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.
J.-H. Jacobsen, A. Smeulders, and E. Oyallon. i-revnet: Deep invertible networks. arXiv preprint arXiv:1802.07088, 2018.
E. Kim, C. Ahn, and S. Oh. Nestednet: Learning nested sparse structures in deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8669–8678, 2018.
A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
G. Larsson, M. Maire, and G. Shakhnarovich. Fractalnet: Ultra-deep neural networks without residuals. arXiv preprint arXiv:1605.07648, 2016.
H. Li, Y. Liu, W. Ouyang, and X. Wang. Zoom out-and-in network with map attention decision for region proposal and object detection. International Journal of Computer Vision, Jun 2018. ISSN 1573-1405. doi: 10.1007/s11263-018-1101-7. https://doi.org/10.1007/s11263-018-1101-7.
T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.
T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In European Conference on Computer Vision, pages 483–499. Springer, 2016.
A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison, L. Antiga, and A. Lerer. Automatic differentiation in pytorch. 2017.
O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015.
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015.
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
S. Sun, Z. Kuang, L. Sheng, W. Ouyang, and W. Zhang. Optical flow guided feature: A fast and robust motion representation for video action recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1390–1399, 2018.
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, et al. Going deeper with convolutions. In CVPR, 2015.
S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages 5987–5995. IEEE, 2017.
W. Yang, S. Li, W. Ouyang, H. Li, and X. Wang. Learning feature pyramids for human pose estimation. In arXiv preprint arXiv:1708.01101, 2017.
Y. Yang, Z. Zhong, T. Shen, and Z. Lin. Convolutional neural networks with alternately updated clique. arXiv preprint arXiv:1802.10419, 2018.
F. Yu, V. Koltun, and T. Funkhouser. Dilated residual networks. In Computer Vision and Pattern Recognition, volume 1, 2017.
F. Yu, D. Wang, and T. Darrell. Deep layer aggregation. arXiv preprint arXiv:1707.06484, 2017.
S. Zagoruyko and N. Komodakis. Wide residual networks. arXiv preprint arXiv:1605.07146, 2016.
X. Zeng, W. Ouyang, B. Yang, J. Yan, and X. Wang. Gated bi-directional cnn for object detection. In European Conference on Computer Vision, pages 354–369. Springer, 2016.
S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. H. Torr. Conditional random fields as recurrent neural networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 1529–1537, 2015.

37. H. Zhou, W. Ouyang, J. Cheng, X. Wang, and H. Li. Deep continuous conditional random fields with asymmetric inter-object constraints for online multi-object tracking. IEEE Transactions on Circuits and Systems for Video Technology, 2018

論文格式有問題，日後改進

1 簡介

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

譯文：Fast RCNN

譯文：FishNet

譯文：

Faster-RCNN-TF測試及問題

YOLOv2訓練日記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結