(五)PSENet----2019CVPR論文解讀

Shape Robust Text Detection with Progressive Scale Expansion Network

基於漸進式尺度擴展網絡的形狀穩健文本檢測

Abstract

近年來,隨着卷積神經網絡的發展,場景文本檢測技術取得了長足的進步。然而,仍然存在兩個挑戰,阻礙了該算法進入工業應用。一方面,目前的大多數算法對任意形狀的文本定位都需要四邊形的包圍盒,而四邊形包圍盒的定位精度不高。另一方面,彼此接近的兩個文本實例可能導致覆蓋兩個實例的錯誤檢測。傳統上,基於分割的方法可以緩解第一個問題,但通常不能解決第二個挑戰。針對這兩個挑戰,本文提出了一種新的漸進式尺度擴展網絡(PSENet),它可以精確地檢測任意形狀的文本實例。更具體地說,PSENet爲每個文本實例生成不同尺度的核,並逐步將最小尺度核擴展到具有完整形狀的文本實例。由於在最小尺度核之間存在較大的幾何裕度,我們的方法可以有效地分割封閉的文本實例,使得基於分割的方法更容易檢測出任意形狀的文本實例。在CTW1500、Total-Text、ICDAR 2015和ICDAR 2017 MLT上的大量實驗驗證了PSENet的有效性。值得注意的是,在充滿長曲線文本的數據集CTW1500上,PSENet在27FPS時達到74.3%的F值,而我們最好的F值(82.2%)則表現出6.6%的最新算法。 該代碼將在將來發布。
在這裏插入圖片描述

1 Introduction

野外場景文本檢測是場景理解、產品識別、自動駕駛等衆多應用中的一個基本問題。隨着卷積神經網絡(CNNs)的迅速發展,近年來取得了很大的進展[9,14,31]。現有的基於CNN的算法大致可以分爲兩類:基於迴歸的方法和基於分割的方法。

對於基於迴歸的方法[36、42、32、16、41、23、11、13、27],文本目標通常以具有特定方向的矩形或四邊形的形式表示。但是,基於迴歸的方法 無法處理具有任意形狀的文本實例,例如,如圖1(b)所示的曲線文本。 另一方面,基於分段的方法基於像素級分類來定位文本實例。 但是,很難分離彼此靠近的文本實例。 通常,可以基於基於分段的方法來預測覆蓋彼此接近的所有文本實例的錯誤檢測。 圖1(c)示出了一個例子。

爲了解決這些問題,本文提出了一種新的基於核的框架,即漸進式規模擴展網絡(PSENet)。我們的PSENet有以下兩個好處。首先,作爲一種基於分割的方法,PSENet進行像素級分割,能夠精確定位任意形狀的文本實例。其次,我們提出了一種漸進式尺度擴展算法,利用該算法可以成功地識別相鄰的文本實例,如圖1(D)所示。更具體地說,我們爲每個文本實例分配多個預測分割區域,爲簡單起見,這些區域被表示爲“核”。每個核的形狀與原始文本實例相似,但比例不同。爲了得到最終的檢測結果,我們採用了一種基於廣度優先搜索(BFS)的漸進式尺度擴展算法。通常有3個步驟:1)從尺度最小的核開始(在這一步中可以區分實例);2)通過在較大的核中逐漸包含更多的像素來擴展它們的區域;3)完成,直到探索到完整的文本實例(最大的核)。

漸進式比例擴展算法的設計有三個潛在的原因。首先,尺度最小的核函數邊界較遠,容易分離。其次,最小尺度核不能覆蓋文本實例的完整區域(參見圖2(B))。因此,有必要從最小尺度核中恢復完整的文本實例。第三,漸進式尺度擴展算法是一種簡單有效的小核擴展爲完整文本實例的方法,保證了文本實例的準確定位。

爲了展示我們提出的PSENet的有效性,我們對四個競爭性基準數據集進行了廣泛的實驗,包括ICDAR 2015 [17],ICDAR 2017 MLT [1],CTW1500 [24]和Total-Text [2]。 在這些數據集中,CTW1500和Total-Text被明確設計用於曲線文本檢測。 具體來說,在包含長曲線文本的數據集CTW1500上,我們的最新結果絕對比最新結果高出6.6%,而我們的實時模型在27 FPS時達到了可比的性能(74.3%)。 此外,擬議的PSENet在多方位和多語言文本數據集上也取得了可喜的性能:ICDAR 2015和ICDAR 2017 MLT。
在這裏插入圖片描述

2 Related Work

基於深度學習方法的場景文本檢測在過去幾年中取得了顯著的效果。現代文本檢測器主要基於CNN框架,其中場景文本檢測大致分爲兩類:基於迴歸的方法和基於分割的方法。

基於迴歸的方法 通常基於通用的對象檢測框架,例如更快的R-CNN[31]和SSD[22]。TextBoxs[19]修改了卷積內核的錨定比例和形狀,以適應文本的各種長寬比。EAST[42]使用FCN[25]直接預測每個像素的記分圖、旋轉角度和文本框。RRPN[28]採用了更快的R-CNN,並提出了RPN部分的旋轉方案來檢測任意方向的文本。RRD[20]從兩個單獨的分支中提取了用於文本分類和迴歸的特徵映射,以更好地進行長文本檢測。

然而,大多數基於迴歸的方法往往需要複雜的錨設計和繁瑣的多個階段,這可能需要窮盡的調優,並導致次優性能。此外,上述工作是專門針對多方向文本檢測而設計的,在處理實際場景中分佈廣泛的曲線文本時可能會出現不足。

基於分割的方法主要受全卷積網絡(FCN)的啓發[25]。 張等。 [39]首先採用FCN提取文本塊並通過MSER從這些文本塊中檢測字符候選。 姚等。 [38]將一個文本區域表述爲各種屬性,例如文本區域和方向,然後利用FCN預測相應的熱圖。 Lyu等人[27] 利用角點定位找到適合文本實例的不規則四邊形。 PixelLink [4]通過預測不同文本實例之間的像素連接來分離彼此靠近的文本。 最近,TextSnake [26]使用有序磁盤來表示曲線文本以進行曲線文本檢測。 SPC-Net [?]使用實例分割框架,並利用上下文信息檢測任意形狀的文本,同時抑制誤報。

在這裏插入圖片描述
上述工作在幾個水平和多向文本基準上取得了優異的性能。類似地,除了TextSnake[26]之外,上述大多數方法都沒有特別關注曲線文本。然而,TextSnake在推理過程中仍然需要耗時且複雜的後處理步驟(集中、跨步和滑動),而我們提出的漸進式規模擴展只需要一個乾淨而高效的步驟。

3 Proposed Method

在這一部分中,我們首先介紹擬議中的漸進式規模擴展網絡(PSENet)的總體管道。接下來,我們詳細介紹了漸進式尺度擴展算法,並提出了能夠有效區分位置相近的文本實例的算法。最後介紹了標籤的生成方法和損失函數的設計。

3.1. Overall Pipeline

圖3顯示了我們建議的PSENet的高級概述。我們使用ResNet[10]作爲PSENet的主幹。我們將低層紋理特徵和高層語義特徵串聯在一起。這些映射在F中進一步融合,以編碼具有各種接受視圖的信息。直觀地說,這種融合很可能促進各種尺度的核的產生。然後將特徵映射圖F投影到n個分支,以產生多個分割結果S1、S2、…、Sn。對於特定比例的所有文本實例,每個Sii將是一個分割掩碼。不同分割掩碼的尺度由超參數決定,這將在SEC中討論。3.4.。在這些掩碼中,S1給出了具有最小尺度(即最小核)的文本實例的分割結果,並給出了原始分割掩碼的Snenodes(即最大核)的分割結果。在得到這些分割掩碼後,我們使用漸進尺度擴展算法將S1中的所有實例核逐步擴展到它們在Sn中的完整形狀,並得到最終的檢測結果R。

3.2. Network Design

PSENet的基本框架由FPN[21]實現。我們首先從主幹中得到四個256個通道的特徵圖(即P2,P3,P4,P5)。爲了進一步將語義特徵從低到高進行組合,我們通過函數C(·)將四個特徵映射進行融合,得到1024個通道的特徵映射F,如下所示:
F=C(P2,P3,P4,P5)=P2Up×2(P3)Up×4(P4)Up×8(P5)1 \begin{aligned} F &=\mathbb{C}\left(P_{2}, P_{3}, P_{4}, P_{5}\right) \\ &=P_{2}\left\|\mathrm{Up}_{\times 2}\left(P_{3}\right)\right\| \mathrm{Up}_{\times 4}\left(P_{4}\right) \| \mathrm{Up}_{\times 8}\left(P_{5}\right) (1) \end{aligned}
其中“k”表示級聯,Up×2(·)、Up×4(·)、Up×8(·)分別表示2次、4次、8次上採樣。隨後,F被饋送到Conv(3,3)-BN-REU層,並且被減少到256個信道。接下來,它通過n個Conv(1,1)-Up-Sigmoid層併產生n個分割結果S1,S2,…,Sn。這裏,Conv、BN、RELU和UP指的是卷積[18]、批歸一化[15]、校正的線性單元[6]和上採樣。

3.3. Progressive Scale Expansion Algorithm

如圖1©所示,基於分割的方法很難分離彼此接近的文本實例。爲了解決這一問題,我們提出了一種漸進式規模擴展算法。
在這裏插入圖片描述
這是一個生動的例子(見圖4),它解釋了逐步擴展尺度算法的過程,其中心思想來自廣度優先搜索(BFS)算法。 在示例中,我們有3個分割結果S = {S1,S2,S3}(請參見圖4(a),(e),(f))。 首先,基於最小內核映射S1(參見圖4(a)),可以找到4個不同的連接組件C = {c1,c2,c3,c4}作爲初始化。 圖4(b)中具有不同顏色的區域分別表示這些不同的連接組件。 到目前爲止,我們已經檢測到所有文本實例的中心部分(即最小內核)。 然後,通過合併S2和S3中的像素,逐步擴展檢測到的內核。 兩次縮放的結果分別顯示在圖4(c)和圖4(d)中。 最後,我們提取圖4(d)中用不同顏色標記的連接組件作爲文本實例的最終預測。

圖4(g)示出了水垢膨脹的過程。該擴展基於“廣度優先搜索”算法,該算法從多個內核的像素開始,並迭代合併相鄰的文本像素。注意,在擴展過程中可能會有衝突的像素,如圖4(g)中的紅色框所示。在我們的實踐中,解決衝突的原則是,混淆的像素只能在先到先得的基礎上由單個內核合併。由於採用了“漸進式”擴展程序,這些邊界衝突將不會影響最終的檢測和性能。規模擴展算法的詳細信息總結在算法1中。在僞代碼中,T,P爲中間結果。 Q是一個隊列.Neighbor(·)表示p的相鄰像素(4向).GroupByLabel(·)是按標籤分組中間結果的功能。 “ Si [q] = True”表示Si中的像素q的預測值屬於文本部分。 C和E分別用於在擴展之前和之後保留內核。

在這裏插入圖片描述

3.4. Label Generation

在這裏插入圖片描述
如圖3所示,PSENet產生具有不同核尺度的分割結果(例如S1,S2,…,Sn),因此在訓練過程中需要具有不同核尺度的相應地面實況。 在我們的實踐中,可以通過收縮原始文本實例來簡單有效地進行這些地面真相標籤。 圖5(b)中帶有藍色邊框的多邊形表示原始文本實例,它對應於最大的分割標籤掩碼(請參見圖5(c)中最右邊的地圖)。 爲了依次獲得圖5(c)中的縮小蒙版,我們利用V atti裁剪算法[37]來縮小原始多邊形pnby雙像素並得到縮小的多邊形pi(請參見圖5(a))。 隨後,將每個收縮的多邊形piis轉移到0/1二進制掩碼中,以進行分割標籤地面真相。 我們將這些地面真值圖分別表示爲G1,G2,…,Gn。 在數學上,如果我們將縮放比例視爲ri,則pn和pican之間的邊距di可計算爲:
di=Area(pn)×(1ri2)Perimeter(pn)2 d_{i}=\frac{\operatorname{Area}\left(p_{n}\right) \times\left(1-r_{i}^{2}\right)}{\operatorname{Perimeter}\left(p_{n}\right)}(2)
其中,面積(·)是計算多邊形面積的函數,周長(·)是計算多邊形周長的函數。在此基礎上,定義了地面真實地圖的比例尺RIAS:
ri=1(1m)×(ni)n13 r_{i}=1-\frac{(1-m) \times(n-i)}{n-1} (3)
其中m是最小比例比,它是(0,1]中的值。基於等式中的定義。(3),標度比(即r1,r2,…,rn)的值由兩個超參數n和m決定,它們從m線性增加到1。

3.5. Loss Function

對於學習PSENet,損失函數可以表示爲:
L=λLc+(1λ)Ls4 L=\lambda L_{c}+(1-\lambda) L_{s} (4)
其中Lc和LS分別表示完整文本實例和縮小文本實例的損失,而λ平衡了Lc和LS之間的重要性。

在使用二值交叉熵時,自然圖像中的文本實例通常只佔據極小的區域,這使得網絡預測偏向於非文本區域[3]。受[29]的啓發,我們在實驗中採用了骰子係數。骰子係數D(Si,Gi)如公式n所示(5):
D(Si,Gi)=2x,y(Si,x,y×Gi,x,y)x,ySi,x,y2+x,yGi,x,y25 D\left(S_{i}, G_{i}\right)=\frac{2 \sum_{x, y}\left(S_{i, x, y} \times G_{i, x, y}\right)}{\sum_{x, y} S_{i, x, y}^{2}+\sum_{x, y} G_{i, x, y}^{2}} (5)
其中Si,x,y和Gi,x,y分別是指分割結果Sii和地面真值Gi中的像素(x,y)的值。

此外,還有許多類似於文本筆畫的模式,如柵欄、網格等。因此,我們在訓練過程中採用在線硬示例挖掘(OHEM)[34]來更好地區分這些模式。

Lc主要用於分割文本區域和非文本區域。假設OHEM給出的訓練掩模爲M,則Lc可以表示爲等式6。
Lc=1D(SnM,GnM)6 L_{c}=1-D\left(S_{n} \cdot M, G_{n} \cdot M\right) (6)
Ls是縮小的文本實例的損失。 由於它們被完整文本實例的原始區域包圍,因此我們忽略了分割結果Sn中非文本區域的像素,從而避免了某些冗餘。 因此,Ls可以表示如下:
Ls=1i=1n1D(SiW,GiW)n1Wx,y={1, if Sn,x,y0.50, otherwise 7 \begin{aligned} L_{s}=1-& \frac{\sum_{i=1}^{n-1} D\left(S_{i} \cdot W, G_{i} \cdot W\right)}{n-1} \\ W_{x, y}=\left\{\begin{array}{ll} {1,} & {\text { if } S_{n, x, y} \geq 0.5} \\ {0,} & {\text { otherwise }} \end{array}\right. \end{aligned}(7)
這裏,W是忽略Sn中的非文本區域的像素的掩碼,Sn,x,y指的是Sn中的像素(x,y)的值。

4 Experiment

在本節中,我們首先簡要介紹數據集並介紹實現細節。然後,我們對PSENet進行了消融研究。最後,我們在最近四個具有挑戰性的公共基準:CTW1500、Total-Text、ICDAR 2015和ICDAR 2017 MLT上對提出的PSENet進行了評估,並將PSENet與最新的方法進行了比較。

4.1. Datasets

CTW1500[24]是由余亮等人構造的一個具有挑戰性的長曲線文本檢測數據集。[24]。它由1000個訓練圖像和500個測試圖像組成。與傳統的文本數據集(如ICDAR 2015、ICDAR 2017 MLT)不同,CTW1500中的文本實例被標註爲一個具有14個點的多邊形,該多邊形可以描述任意曲線文本的形狀。

Total-Text[2]是最新發布的用於曲線文本檢測的數據集。總文本中包含水平、多方向和曲線文本實例。該基準由1255個訓練圖像和300個測試圖像組成。

ICDAR 2015(IC15)[17]是用於文本檢測的常用數據集。它總共包含1500張圖片,其中1000張用於培訓,其餘用於測試。文本區域由四邊形的4個頂點進行註釋。

ICDAR 2017 MLT(IC17-MLT)[1]是一個大規模的多語言文本數據集,包括7200張訓練圖像、1800張驗證圖像和9000張測試圖像。數據集由來自9種語言的完整場景圖像組成。

4.2. Implementation Details

我們使用在ImageNet[5]上預先培訓的ResNet[10]作爲我們的主幹。所有網絡均採用隨機梯度下降(SGD)算法進行優化。我們使用7200個IC17-MLT訓練圖像和1800個IC17-MLT驗證圖像來訓練模型,並在IC17-MLT上報告結果。注意,訓練IC17-MLT不採用額外數據,例如SynthText[7]。我們在4個GPU上對PSENet進行了180K迭代的IC17-MLT訓練,批處理大小爲16。初始學習率設置爲1×10−3,在60K和120K迭代時除以10。

其餘的數據集採用兩種訓練策略:(1)從頭開始訓練。(2)對IC17MLT模型進行微調。在從頭開始訓練時,我們在4個−上訓練批大小爲16的PSENET進行36K次迭代,初始學習率設置爲1×10 GPU 3,12K和24K迭代時除以10。在IC17MLT模型上進行微調時,迭代次數爲24K,12K迭代時初始學習率爲1×10−4除以10。

我們使用的重量衰減率爲5×10−4,內斯特夫動量[35]爲0.99,沒有阻尼。我們採用[8]介紹的權重初始化方法。

在訓練過程中,我們忽略了所有數據集中標記爲無關的模糊文本區域。損失餘額的λ設置爲0.7.。對訓練數據的數據增強如下:1)圖像按{0.5,1.0,2.0,3.0}的比例進行隨機重縮放;2)圖像在[−10◦,10◦]範圍內隨機水平翻轉和旋轉;3)從變換後的圖像中隨機裁剪640×640個樣本。對於四邊形文本,我們計算最小面積矩形來提取邊界框。對於曲線文本數據集,應用PSE的輸出來產生最終結果。

4.3. Ablation Study

內核可以用作最終結果嗎?內核的目的是大致定位文本實例,並將彼此緊密排列的文本實例分開。但是,最小尺度核函數不能覆蓋文本實例的全部區域,不利於文本檢測和識別。在圖6(A)中,僅使用最小尺度核(虛線曲線)的檢測器的F測量在ICDAR 2015和CTW1500數據集上很糟糕。此外,我們使用現代文本識別器CRNN[33]對完整文本實例和內核中的文本進行識別,發現CRNN無法識別內核中的文本(見圖2)。因此,該核不能用作最終檢測結果。

最小核尺度的影響。我們通過將核數n設爲2來研究最小尺度m的影響,並使最小尺度m在1到0.1之間變化。在ICDAR 2015和CTW1500兩個數據集上對模型進行了評估。我們可以從圖6(A)中發現,當m太大或太小時,測試集上的F-測度會下降。需要注意的是,在設置核尺度1時,我們只使用文本切分映射作爲最終結果,沒有使用漸進式尺度擴展算法。顯然,如果沒有PSE,基線的性能就不能令人滿意,因爲網絡無法分隔彼此緊密相連的文本。當m過大時,PSENet很難將彼此相鄰的文本實例分開。當m太小時,PSENet經常錯誤地將整個文本行分割成不同的部分,訓練不能很好地收斂。

核數的影響。研究了核數n對PSENet性能的影響。具體地說,我們保持最小尺度m不變,並用不同的核數n訓練PSENet,具體來說,我們設置ICDAR 2015的m從0.4開始,CTW1500從0.6開始,n從2增加到10,並在ICDAR 2015和CTW1500數據集上進行了評估。圖6(B)顯示了實驗結果,從中我們可以發現,隨着n的增長,測試集上的F-測度不斷上升,當n≥5時開始趨於平穩。多核函數的優點是可以準確地重建兩個大間距的文本實例,它們位於彼此接近的位置。

中堅力量的影響。更深層次的神經網絡已被證明可以提高大規模圖像分類和目標檢測的性能。爲了更好地分析所提出的PSENet的性能,我們採用ResNet作爲我們的主幹,在{50,101,152}三個不同的深度上進行了測試,並在大規模數據集IC17-MLT上進行了測試。如表1所示,在相同設置下,將主幹深度從50提高到152可以明顯提高性能,從70.8%提高到72.2%,絕對提高1.4%。
在這裏插入圖片描述
在這裏插入圖片描述

4.4. Comparisons with State-of-the-Art Methods

正在檢測曲線文本。爲了測試曲線文本檢測的能力,我們在CTW1500和Total-Text(主要包含曲線文本)上測試了我們的方法。在測試階段,我們將圖像的長邊縮放到1280,並使用與[24]相同的評估方法對結果進行評估。我們分別在表2和表3中報告了PSENet在CTW1500和Total-Text上的單尺度性能。請注意,我們僅使用ResNet50作爲主幹。

在CTW1500上,即使在沒有外部數據的情況下,PSENet也超過了所有的同行。值得注意的是,在FMeasure上,PSENet實現的FMeasure(82.2%)比CTD+TLOC高8.8%,比TextSnake高6.6%。據我們所知,這是文獻中報道的最好的結果。

在全文本上,PSENet的準確率、召回率和F-Measure分別達到了84.02%、77.96%和80.87%,超過了目前最先進的方法2.47%以上。請注意,在F度量中,我們的PSENet極大地超過了TotalText上的基線40%以上。

在CTW1500和Total-Text上的實驗表明,PSENet在處理曲線文本和任意形狀的文本時具有明顯的優越性。我們還說明了幾個具有挑戰性的結果,並與圖7(D)中最先進的CTD+TLOC[24]進行了一些直觀的比較。比較清楚地表明,PSENet能夠優雅地區分非常複雜的曲線文本實例,並以令人信服的方式將它們分離。
在這裏插入圖片描述
檢測定向文本。 我們在IC15上評估了擬議的PSENet,以測試其定向文本檢測的能力。 僅將ResNet50用作PSENet的主幹。在推理期間,我們將輸入圖像的長邊縮放到2240。我們將我們的方法與表4中的其他最新方法進行了比較。 F測度達到85.69%,比現有技術水平高出3%以上。 此外,我們在圖7(a)中演示了一些測試示例,並且PSENet可以準確定位具有不同方向的文本實例。

檢測多語言文本。爲了測試PSENet對多種語言的健壯性,我們在IC17-MLT基準上對PSENet進行了測試。由於數據集的規模很大,爲了充分挖掘PSENet的潛力,我們採用了Res50和Res152作爲骨幹。我們將原始圖像放大2倍,所提出的PSENet達到了72.13%的F-測度,比目前最先進的方法絕對提高了5.3%。此外,我們還展示了圖7(B)中的一些測試示例,PSENet可以準確地定位多語言的文本實例。這證明了PSENet對於多語言、多方向的檢測具有較強的魯棒性,確實可以部署在複雜的自然場景中。結果如表5所示。

請注意,我們使用高分辨率來測試IC15和IC17-MLT,因爲這兩個數據集中有太多的小文本。
在這裏插入圖片描述

4.5. Speed Analyze

如表6所示,PSENet可以快速檢測曲線文本實例。採用ResNet50和ResNet18作爲主幹,兼顧速度和精度。重點分析了PSENet在不同階段的時間消耗情況。當輸出特徵圖爲輸入圖像的1/1時,PSENet的性能最好,而由於特徵圖較大,PSE的時間消耗超過總推理時間的一半以上。如果輸出特徵圖的大小爲輸入圖像的1/4,則PSENet的FPS可以從3.9提高到8.4,而性能從82.2%略微下降到79.9%,如表2所示。可以看出,PSE的時間消耗不到總推理時間的1/10。此外,當我們縮放640的長邊緣時,FPS進一步提高到22,並且探測器仍具有良好的性能(75.6%)。

當我們使用ResNet 18作爲主幹時,PSENet的速度幾乎是實時的(27FPS),而性能仍然具有競爭力。請注意,PSENet(ResNet18)不使用外部數據進行預訓練。結合表2,我們可以發現PSENet在速度和性能上都超過了EAST和CTD+TLOC。

以上所有實驗均在CTW1500測試儀上進行了測試。 我們評估所有測試圖像並計算平均速度。 我們縮放{1280,960,640}的長邊作爲輸入來測試速度。 表6中的所有結果均通過PyTorch [30]和一個1080Ti GPU進行了測試。

5 Conclusion and Future Work

提出了一種新的漸進尺度擴展網絡(PSENet)來成功檢測自然場景圖像中任意形狀的文本實例。該方法通過多個語義分割圖將檢測區域從小核逐步擴展到大而完整的實例,對形狀具有較強的魯棒性,可以很容易地分離出非常接近甚至部分相交的文本實例。在場景文本檢測基準上的實驗表明,該方法具有較好的性能。

未來要探索的方向是多方面的。首先,我們將研究擴展算法是否可以與網絡端到端一起訓練。其次,漸進式尺度擴展算法可以被引入到一般的實例級分割任務中,特別是在對象實例擁擠度較高的基準測試中。我們正在清理我們的代碼,並將很快發佈它們。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章