EfficientPS 論文翻譯-------第三部分：網絡結構

EfficientPS論文翻譯-------第三部分：網絡結構

在這一節中，我們首先對我們提出的EfficientPS體系網絡結構做一個簡要的概述，然後詳細介紹它的每一個組成部分。我們的網絡遵循自頂向下的佈局，如圖2所示。它由一個帶有雙向特徵金字塔網絡(FPN)的共享主幹網絡組成，然後是任務特定的語義分割和實例分割頭。我們在EfficientNet (Tan和Le, 2019)架構的基礎上構建了我們共享主幹網絡的編碼器(用紅色表示)。它由可移動的bottleneck （瓶頸）單元組成，採用複合縮放來均勻縮放編碼器網絡的所有維度。這使得我們的編碼器具有豐富的表徵能力，與其他編碼器或類似鑑別能力的骨幹相比，參數更少。

圖2我們提出的EfficientPS體系結構的圖示，該體系結構由一個共享主幹和雙向FPN，並行語義和實例分割頭以及隨後的全景融合模塊組成。共享主幹網絡建立在EfficientNet架構和我們新的雙向FPN上，該雙向FPN支持雙向信息流。實例分割頭基於改進的Mask R-CNN拓撲，我們結合了我們提出的語義分割頭。最後，兩個頭部的輸出在我們的全景融合模塊中融合，以產生全景分割輸出。

與採用在其他全景分割結構中常用的傳統FPN不同，我們結合我們提出的雙向FPN，融合多尺度特徵比其相似算法更有效。這可以歸因於這樣一個事實，即在我們的雙向FPN中的信息流並不是僅侷限於一個方向，如圖2中的紫色、藍色和綠色塊所示。在雙向FPN之後，我們採用兩個並行的頭部分別進行語義分割(用黃色表示)和實例分割(用灰色和橙色表示)。我們使用了Mask R-CNN網絡結構的變體作爲實例頭，並結合了由密集預測單元和殘差金字塔組成的新的語義分割頭。語義頭由三個不同的模塊組成，分別用於捕捉精細特徵、遠程上下文特徵和關聯明顯捕獲的特徵，以改善對象邊界的細化。最後，我們使用我們提出的全景融合模塊融合語義頭和實例頭的輸出，以產生全景分割輸出。

3.1 網絡主幹

我們的網絡的主幹由一個編碼器和我們提出的雙向FPN組成。編碼器是任何細分網絡的基本組成部分，一個強大的編碼器是必不可少的具有高代表性的能力。在這項工作中，我們試圖在參數的數量和計算複雜度與網絡的表示能力之間找到一個好的平衡。EfficientNets是一個最近出現的網絡結構家族，它已經被證明在分類任務上顯著優於其他網絡，同時參數和失敗更少。它採用複合縮放，有效地均勻縮放網絡的寬度、深度和分辨率。因此，我們選擇在這個係數爲1.6、2.2和456的比例結構的基礎上構建，通常稱爲EfficientNets-B5模型。這可以很容易地替換爲任何基於可用資源的容量和計算預算的有效網絡模型。

爲了使EfficientNet適應我們的任務，我們首先移除網絡中的分類頭和Squeeze-and-Excitation(SE)（擠壓-激勵）連接。我們發現，卷積特徵映射的通道之間的相互依賴的顯式建模(由SE連接啓動)傾向於抑制特徵的局部化，而有利於上下文元素。這個屬性在分類網絡中是一個理想的屬性，但是對於分割任務來說，這兩個屬性是同等重要的，因此我們沒有在主幹中添加任何SE連接。其次，我們將所有批標準化層替換爲同步到位激活批標準化層。這使得跨不同GPU的同步成爲可能，從而在執行多GPU訓練和就地操作釋放額外GPU內存時產生更好的梯度估計。我們在第4.4.2節介紹的消融研究中，分析了我們改進的EfficientNet在與其他最先進的架構中常用的編碼器比較時的性能。

我們的EfficientNet編碼器由9個塊組成，如圖2所示(紅色部分)。我們以從左到右的方式將圖中的每個塊稱爲塊1到塊9。第2、3、5、9塊的輸出分別對應於下采樣因子×4、×8、×16、×32。這些帶有向下採樣的塊的輸出也是我們的雙向FPN的輸入。傳統的全景分割網絡採用自頂向下的方法對不同分辨率的特徵進行融合，解決了多尺度特徵融合問題。這是通過首先使用1×1卷積來將不同編碼器輸出分辨率的通道數減少或增加到預定數量（通常爲256）。然後，將較低分辨率的特徵上採樣到較高的分辨率，然後將它們加在一起。例如，將×32分辨率編碼器輸出特性調整爲×16分辨率，並添加到×16分辨率編碼器輸出特性中。最後，在每個比例尺上使用3×3卷積來進一步學習融合功能，然後產生P4，P8，P16和P32輸出。這種FPN拓撲具有有限的單向信息流，導致多尺度特徵的無效融合。因此，我們建議通過添加第二個分支來緩解此問題，該分支以自下而上的方式聚合多尺度特徵，以實現雙向信息流。

我們提出的如圖2所示的雙向FPN由兩個並行分支組成。每個分支由一個1×1的卷積組成，每個尺度上有256個輸出濾波器，用於通道縮減。藍色所示的自頂向下分支遵循從右到左的傳統FPN聚合模式。而紫色所示的自底向上的分支，從左到右將高分辨率的特性採樣到下一個分辨率較低的解決方案，然後將它們與下一個低分辨率編碼器輸出特性相加。例如，×4分辨率特性將被調整爲×8分辨率，並添加到×8分辨率編碼器輸出特性中。然後下一階段，將每個分辨率下自底向上和自頂向下分支的輸出進行相應的求和，通過一個具有256個輸出通道的3×3可分離卷積，分別得到P4、P8、P16和P32輸出。相對於標準卷積，我們使用可分卷積來保持低參數消耗。在消融研究中，我們對我們提出的雙向FPN與常規FPN的性能進行了評估。

3.2語義分割頭

我們提出的語義分割頭由三個組件組成，每個組件針對的是關鍵需求之一。首先，在大規模情況下，網絡應具有有效捕獲精細特徵的能力。爲了實現這一點，我們使用了大型特徵提取器（LSFE）模塊，該模塊具有兩個3×3可分離的卷積以及128個輸出濾波器，每個濾波器都帶有一個iABN同步和一個Leaky ReLU激活功能。第一個3×3可分離卷積將濾波器的數量減少到128，第二個3×3可分離卷積進一步學習了更深的功能。

第二個要求是，在小規模的情況下，網絡應該能夠捕獲遠程上下文。Chen等人受到空間金字塔池(Atrous Spatial Pyramid Pooling, ASPP)的啓發，廣泛應用於最先進的語義分割架構的模塊已被證明是有效的。密集預測單元(DPC) 和高效空間金字塔池(eASPP)是ASPP的兩個變種，顯著更高效，也產生更好的性能。我們發現，與eASPP相比，DPC在參數數量稍微增加的情況下表現出更好的性能。因此，我們在語義頭中使用了一個修改過的DPC模塊，如圖2所示。我們通過用iABN同步替換批歸一化層以及用Leaky ReLU替換ReLU來擴展原始DPC拓撲。DPC模塊由一個3×3可分離卷積和256個輸出通道組成，擴展速率爲（1,6），並擴展到五個並行分支。三個分支中的每個分支由3×3擴張的可分離卷積組成，具有256個輸出，其中擴展速率分別爲（1,1），（6,21）和（18,15）。第四分支將擴張速度爲（18,15）的擴張可分離卷積的輸出作爲輸入，並將其通過另一個具有256個輸出通道且擴張率爲（6,3）的3×3擴張可分離卷積。然後將所有這些並行分支的輸出連接起來，以產生具有1280個通道的張量。然後，該張量最終通過具有256個輸出通道的1×1卷積，形成DPC模塊的輸出。請注意，DPC模塊中的每個卷積後面都帶有iABN同步和Leaky ReLU激活功能。

語義頭的第三個也是最後一個要求是，它應該能夠減輕大規模和小規模特徵之間的不匹配，同時執行特徵聚合。爲此，我們使用了失配校正模塊(MC)，該模塊將小尺度特徵與大尺度特徵相關聯。它由級聯的3×3可分離卷積和128個輸出通道組成，隨後是iABN與Leaky ReLU同步，以及一個雙線性上採樣層，該上採樣層對特徵圖進行了2倍的上採樣。圖3 (a)、3 ©和3 (d)展示了我們的語義頭的這些主要組件的拓撲結構。

圖3 我們的EfficientPS體系結構的建議語義頭和實例頭中的各種體系結構組件的拓撲。

我們的雙向FPN的四個不同的縮放輸出，即P4、P8、P16和P32是我們的語義頭的輸入。將採樣因子爲×32和×16的小尺度輸入P32和P16分別輸入到兩個並行的DPC模塊中。當大規模輸入時，P8和P4分別通過兩個並行的LSFE模塊，採樣因子分別爲×8和×4。隨後，每個並行DPC和LSFE模塊的輸出都使用特徵對齊連接進行增強，每個模塊的輸出都向上採樣4倍。然後將這些上採樣的特徵映射串聯起來，生成一個具有512個通道的張量，然後將其輸入到N ’ stuff ’ + ’ thing '輸出濾波器的1×1卷積中。然後這個張量最終被向上採樣2倍，並通過一個softmax層來產生與輸入圖像具有相同分辨率的語義邏輯。現在，來自DPC和LSFE模塊的特性對齊連接通過按元素求和將每個輸出連接起來，如圖2所示。我們在第二個DPC和LSFE之間以及兩個LSFE連接之間的互連中添加MC模塊。這些關聯連接聚合了來自小尺度特徵和特徵大尺度特徵的上下文信息，以更好地細化對象邊界。我們使用加權的每像素對數損失(Bulo et al, 2017)進行訓練，由
$\mathcal{L}_{p p}(\Theta)=-\sum_{i j} w_{i j} \log p_{i j}\left(p_{i j}^{*}\right) (1)$
其中 $p_{i j}^{*}$ 是給定圖像的地面真實性， $p_{i j}$ 是將像素（i，j）分配給類別c∈p的預測概率，如果像素（i，j）屬於最壞預測的25％，則 $w_{i j}$ = 4，否則 $w_{i j}$ = 0。 W和H是給定輸入圖像的寬度和高度。整體語義頭損失由下式給出：
$\mathcal{L}_{\text {semantic}}(\Theta)=\frac{1}{n} \sum L_{p p}$
其中n爲批大小。我們在第4.4.4節中對我們提出的語義頭進行了深入分析，並與其他在最先進的架構中常用的語義頭進行了比較。

3.3實例分割頭

圖2中所示的我們的EfficientPS網絡的實例分割頭具有類似於Mask R-CNN（He et al，2017）的拓撲，但有一些修改。更具體地說，我們分別用可分離的卷積，iABN同步和Leaky ReLU替換了所有標準卷積，批歸一化層和ReLU激活。與我們架構的其餘部分類似，我們使用可分卷積代替標準卷積以減少網絡消耗的參數數量。與傳統的Mask R-CNN相比，這可以節省2.09 M的參數。

Mask R-CNN包含兩個階段。在第一階段，圖3（b）所示的區域提議網絡（RPN）模塊採用完全卷積網絡來輸出一組矩形目標提議和給定輸入FPN級別的目標得分。該網絡結構包含一個具有256個輸出通道的3×3可分離卷積、一個iABN同步和一個Leaky ReLU激活，然後是兩個並行的1×1卷積，分別具有4k和k個輸出濾波器。這裏，k是對象建議的最大數量。相對於k個參考邊界框（稱爲錨點）對k個建議進行了參數化。比例和寬高比定義了一個特定的錨點，它取決於所使用的數據集。由於生成的建議可能會重疊，因此採用了非最大抑制(Non-Max Suppression, NMS)的附加過濾步驟。本質上，在出現重疊的情況下，具有最高客觀分數的建議被保留，其餘的建議被丟棄。RPN首先計算形式爲（pu，pv，pw，ph）的目標提議和目標得分σ（ps），該目標得分將形式（u，v，w，h）的錨點a轉換爲（u + pu， v + pv）和（wepw，heph），其中（u，v）是錨點a在圖像座標系中的位置，（w，h）是尺寸，而σ（·）是S型函數。 NMS產生最終候選邊界框建議，以供下一階段使用。

隨後，ROI align（He等人，2017）使用對象建議從FPN編碼中提取特徵，方法是將第n個通道中的特徵以14×14的空間分辨率直接合併到邊界框建議中。這裏
$n=\max \left(1, \min \left(4,\left\lfloor 3+\log _{2}(\sqrt{w h} / 224)\right\rfloor\right)\right)(3)$
其中w和h爲邊界框提案的寬度和高度。所提取的特徵作爲邊界框迴歸、對象分類和掩碼分割網絡的輸入。RPN網絡依次對FPN的每個輸出尺度進行操作，從而從不同的尺度積累候選對象，ROI align使用所積累的列表從所有的尺度提取特徵。邊界盒迴歸和對象分類網絡由兩個具有1024通道的共享的連續全連通層組成，即iABN同步層和Leaky ReLU層。隨後，每個任務的feature map在結束時經過一個全連接層，分別有4N ’ thing '輸出和N ’ thing ’ +1輸出。對象分類對數產生了來自softmax層的類和空隙上的概率分佈，而邊界框迴歸網絡對類特定的校正因子進行編碼。對於類別c的形式爲（uc，vc，wc，hc）的給定對象建議，將以（u + cu，v + cv，wecw，hech）形式計算新的邊界框，其中（cu，cv， cw，ch）是特定於類的校正因子，（u，v）和（w，h）分別是邊界框建議的位置和尺寸。

Mask分割網絡採用4個連續的3×3可分離卷積，256個輸出通道，其次是iABN同步和Leaky ReLU。然後將得到的地形圖通過256個輸出通道的2×2轉置卷積，輸出步長爲2，然後是iABN sync和Leaky ReLU激活函數。最後，使用與N ’ thing '輸出通道的1×1卷積，每個類產生28×28 logits。所得的logit使用sigmoid函數給出了候選邊界框建議的Mask前景概率。然後將其與我們在3.4節中介紹的我們建議的全景融合模塊中的語義對數融合。

爲了訓練實例分割頭，我們採用Mask R-CNN中提出的損失函數，即第一階段有兩個損失函數：對象分數損失和目標提議損失，第二階段有三個損失函數：分類損失，邊界框損失和Mask分割損失。我們採用一組隨機採樣的正匹配項和負匹配項，使得| Ns | ≤256。客觀分數損失 $\mathcal{L}_{o s}$ 定義爲給定 $N_{s}$ 的對數損失，計算公式爲
$\begin{aligned} \mathcal{L}_{o s}(\Theta)=&-\frac{1}{\left|N_{s}\right|} \sum_{\left(p_{o s}^{*}, p_{o s}\right) \in N_{s}} p_{o s}^{*} \cdot \log p_{o s} \\ &+\left(1-p_{o s}^{*}\right) \cdot \log \left(1-p_{o s}\right) \end{aligned}(4)$
其中 $p_{o s}$ 是RPN的對象得分分支的輸出， $p_{o s}^{*}$ 是groundtruth標籤，如果錨點爲正，則爲1，如果錨點爲負，則爲0。我們使用與Mask R-CNN相同的策略來定義正匹配和負匹配。對於一個給定的錨點a,如果groundtruth框b∗具有最大的交併比（IoU）或IoU（b ∗，a）> TH，則對應的預測b爲正匹配，而當IoU（ b ∗，a）<TL，則對應的預測b爲正匹配。TH和TL是預定義的閾值，TH > TL。

對象建議損失 $\mathcal{L}_{o p}$ 是僅在正匹配上定義的迴歸損失，由
$\mathcal{L}_{o p}(\Theta)=\frac{1}{\left|N_{s}\right|} \sum_{\left(t^{*}, t\right) \in N_{p}(i *, i) \in\left(t^{*}, t\right)} L_{1}(i *, i)(5)$
其中 $L_{1}$ 是平滑 $L_{1}$ 範數， $N_{p}$ 是 $N_{s}$ 個正匹配項的子集， $t^{*}=\left(t_{x}^{*}, t_{y}^{*}, t_{w}^{*}, t_{h}^{*}\right)$ 和 $t=\left(t_{x}, t_{y}, t_{w}, t_{h}\right)$ 是 $b^{*}$ 和 $b$ 的參數化， $b^{*}=\left(x^{*}, y^{*}, w^{*}, h^{*}\right)$ 是groundtruth框, $b^{*}=\left(x, y, w, h\right)$ 是預測邊界框，x, y, w和h分別表示groundtruth框的中心座標，以及它的寬度和高度。參數化由
$\begin{array}{l} t_{x}=\frac{\left(x-x_{a}\right)}{w_{a}}, t_{y}=\frac{\left(y-y_{a}\right)}{h_{a}}, t_{w}=\log \frac{w}{w_{a}}, t_{h}=\log \frac{h}{h_{a}} (6)\\ t_{x}^{*}=\frac{\left(x^{*}-x_{a}\right)}{w_{a}}, t_{y}^{*}=\frac{\left(y^{*}-y_{a}\right)}{h_{a}}, t_{w}^{*}=\log \frac{w^{*}}{w_{a}}, t_{h}^{*}=\log \frac{h^{*}}{h_{a}}(7) \end{array}$
其中 $x_{a}$ ， $y_{a}$ ， $w_{a}$ 和 $h_{a}$ 表示錨點a的中心座標，寬度和高度。

與對象分數損失 $\mathcal{L}_{o s}$ 相似，爲一組隨機採樣的正負匹配 $K_{s}$ 定義分類損失 $\mathcal{L}_{c l s}$ ，使得 $|K_{s}|$ ≤512。分類損失 $\mathcal{L}_{c l s}$ 由下式給出
$\mathcal{L}_{c l s}(\Theta)=-\frac{1}{\left|K_{s}\right|} \sum_{c=1}^{N_{\text {thing }^{\prime}+1}} Y_{o, c}^{*} \cdot \log Y_{o, c}, \quad \text { for }\left(Y^{*}, Y\right) \in K_{s}(8)$
其中Y是分類分支的輸出， $Y^{*}$ 是一個hot編碼的groundtruth標籤，o是觀察到的類，而c是對象o的正確分類。對於給定的圖像，如果IoU $\left(b^{*}, b\right)>T_{n}$ 爲正匹配，否則爲負匹配，其中 $b^{*}$ 是groundtruth框， $b$ 是第一階段的對象建議。

邊界框損失 $\mathcal{L}_{b b x}$ 是僅在正匹配項上定義的迴歸損失，表示爲
$\mathcal{L}_{b b x}(\Theta)=\frac{1}{\left|K_{s}\right|} \sum_{\left(T^{*}, T\right) \in K_{p}}\sum_{(i *, i) \in\left(T^{*}, T\right)} L_{1}(i *, i)（9）$
其中 ${L}_{1}$ 是平滑 ${L}_{1}$ 範數（Girshick，2015年）， ${K}_{p}$ 是 ${K}_{s}$ 個正匹配的子集， $T^{*}$ 和 $T$ 分別是 $B^{*}$ 和 $B$ 的參數，類似於方程式（4）和（5），其中 $B^{*}$ 是groundtruth框， $T$ 是相應的預測邊界框。

最後，掩模分割損失也僅針對正樣本進行定義，並由下式給出：
$\mathcal{L}_{\operatorname{mask}}(\Theta)=-\frac{1}{\left|K_{s}\right|} \sum_{\left(P^{*}, P\right) \in K_{s}} L_{p}\left(P^{*}, P\right)（10）$
其中， $L_{p}\left(P^{*}, P\right)$ 公式如下：
$\begin{aligned} L_{p}\left(P^{*}, P\right)=&-\frac{1}{\left|T_{p}\right|} \sum_{(i, j) \in T_{p}} P_{i, j}^{*} \cdot \log P_{i, j} \\ &+\left(1-P_{i, j}^{*}\right) \cdot \log \left(1-P_{i, j}\right) \end{aligned} （11）$
其中 $P$ 是一個類的預測的28×28二進制掩模， $P_{i, j}$ 表示掩模像素(i, j)的概率， $P_{i, j}^{*}$ 是這個類的28×28的groundtruth二進制掩模， $T_{p}$ 是 $P^{*}$ 中的非空像素的集合。

所有這五種損失均等權衡，實例分割的總損失由下式給出：
$\mathcal{L}_{\text {instance}}=\mathcal{L}_{o s}+\mathcal{L}_{o p}+\mathcal{L}_{c l s}+\mathcal{L}_{b b x}+\mathcal{L}_{\text {mask}}$
與Mask R-CNN類似，針對損耗 $\mathcal{L}_{c l s}$ ， $\mathcal{L}_{b b x}$ 和 $\mathcal{L}_{mask}$ 計算的梯度僅流經網絡主幹，而不流經區域提議網絡。

3.4全景融合模塊

爲了獲得全景分割輸出，我們需要融合語義分割頭和實例分割頭的預測。然而，由於它們之間固有的重疊，融合這兩種預測並不是一項簡單的任務。因此，我們提出一種新的全景融合模塊，以自適應的方式解決上述問題，以充分利用兩個頭的預測一致。圖4顯示了我們的全景融合模塊的拓撲結構。我們從網絡的實例分割頭獲得一組對象實例，其中對於每個實例，我們都有其對應的類預測，置信度得分，邊界框和掩碼logit。首先，我們分兩個階段減少預測對象實例的數量。我們首先丟棄置信值小於某個置信值閾值的所有對象實例。然後，我們將每個對象實例的28×28掩碼模型調整爲零填充並縮放爲與輸入圖像相同的分辨率。隨後，我們根據各自的置信度得分對類別預測，邊界框和掩碼模型進行排序。在第二階段，我們檢查每個排序後的實例掩碼模型是否與其他對象實例重疊。如果重疊高於給定的重疊閾值，我們將丟棄其他對象實例。

圖4 我們建議的全景融合模塊的示意圖。此處，MLA和MLB掩碼對數被融合爲 $\left(\sigma\left(M L_{A}\right)+\sigma\left(M L_{B}\right)\right) \odot\left(M L_{A}+M L_{A}\right)$ ，其中 $M L_{B}$ 是函數 $f^{*}$ 的輸出，σ（·）是Ssigmoid函數，而 $\odot$ 是 Hadamard乘積。在此，給定類別預測c（在此示例中爲騎自行車的人）的 $f^{*}$ 函數將語義對數的c通道的得分清零到相應邊界框之外。

過濾對象實例之後，我們有了每個實例的類預測、邊框預測和掩碼logit MLA。我們同時從語義頭中獲得N個通道的語義對數，其中N爲N 'stu f f t和N 'thingt的和。然後，我們爲每個實例計算第二個掩碼logit MLB，其中我們根據其類預測選擇語義logits的通道。對於實例邊框內的區域，我們只保留所選通道的logit分數，而將該區域外的分數歸零。最後，每個實例有兩個掩碼日誌，一個來自實例分割頭，另一個來自語義分割頭。通過計算MLA的sigmoid和MLB的sigmoid和MLA的sigmoid和MLB的Hadamard積，自適應地將這兩個logit進行合併，得到實例的融合掩碼logit FL表示爲
$F L=\left(\sigma\left(M L_{A}\right)+\sigma\left(M L_{B}\right)\right) \odot\left(M L_{A}+M L_{A}\right)$
其中σ（·）是sigmoid函數，而 $\odot$ 是Hadamard乘積。然後，我們將對象實例的融合掩模logits與通道維度上的“stuff”logits連接起來，生成中間全景logits。隨後，我們沿通道維度應用argmax操作以獲得中間全景預測。在最後一步，我們取一個零填充canvas（畫布），首先從中間泛光預測複製特定實例的“stuff”預測。然後，我們通過從語義頭的預測中複製“stuff”類預測來填充canvas的空白部分，同時忽略那些面積小於預定義閾值(稱爲最小stuff area)的類。這就給了我們最終的全景分割輸出。

先從中間泛光預測複製特定實例的“stuff”預測。然後，我們通過從語義頭的預測中複製“stuff”類預測來填充canvas的空白部分，同時忽略那些面積小於預定義閾值(稱爲最小stuff area)的類。這就給了我們最終的全景分割輸出。

我們將上述方式融合MLA和MLB實例logits，因爲如果兩個實例對於給定像素的logits一致，則最終實例得分將根據它們的一致比例增加，反之亦然。如果一致，相應的對象實例將佔主導地位或被其他實例以及“stuff”類的分數取代。同樣，在出現分歧時，給定對象實例的分數將反映它們之間的差異程度。簡單地說，根據共識，合併的logit分數要麼是衰減的，要麼是放大的。我們將我們提出的全景增強模塊的性能與4.4.5節中介紹的消融研究中的其他現有方法進行比較。

EfficientPS 論文翻譯-------第三部分：網絡結構