ResNeSt 登頂COCO數據集(目標檢測,實例分割,全景分割)

點擊上方“視學算法”,選擇加"星標"或“置頂”

重磅乾貨,第一時間送達

編輯:Cver

本文作者:張航

https://zhuanlan.zhihu.com/p/140236141

本文已由原作者授權,不得擅自二次轉載

上期回顧:在上一篇關於語義分割在 ADE20K 數據集文章發佈之後,我們又測試了 Cityscapes 和 Pascal Context,均達到了 SoTA 水平。

首先感謝小夥伴們 (Chongruo @吳衝若, Jerry@張鍾越, Yi @朱毅) 的努力工作 ,還有沐神 @李沐的大力支持。

我們最近使用 ResNeSt 對各項下游應用進行測試,發現僅需使用經典算法作爲基礎,使用 ResNeSt 作爲主幹網絡,就可以在各項應用中輕鬆獲得 SoTA 水平,下面是幾個相關的應用:

因爲最近小夥伴們都比較忙,我們就不詳細贅述了,這裏主要是展示一下我們取得的結果。希望給準備打 COCO+LVIS比賽的小夥伴有所幫助,代碼和模型都已經開源 

主倉庫鏈接:

https://github.com/zhanghang1989/ResNeSt

Detectron模型鏈接:

https://github.com/zhanghang1989/detectron2-ResNeSt

文章末尾有一些彩蛋,有興趣可以看一下。

我們使用了 Cascade R-CNN + ResNeSt200DCN 在 MS-COCO 目標檢測 test-dev 數據集上的結果如下:

這個表現追平了之前的 CBNet,與CBNet使用 3 個 backbone 不同,我們的模型只使用了單一的 ResNeSt-200 + DCN 的 backbone,所以有更好的推理速度。

MS-COCO 實例分割的 test-dev 數據集上的結果如下:

我們超過了 SpineNet 和 CBNet。在全景分割上,我們大幅超越前人工作:

最後補充一下上一篇沒有提到的語義分割上的結果,在Cityscapes驗證集上

Pascal Context 驗證集上 (我們沒有找到 test server):

寫在後面:

之前有公衆號高調宣傳我們的 ResNeSt paper,有朋友在評論區指責我們給 reviewer 壓力,所以我們選擇在審稿意見出來之後再繼續宣傳。而且我們很驚喜地收到一個 strong reject,關心這個審稿意見怎麼寫的朋友,可以去那個指責我們給 reviewer 壓力的評論,翻譯成英文是一模一樣的。

關於這篇文章,當時投稿的時候,在 ImageNet 確實 Ablation Study 做得有許多不到位的地方,但是之前的文章也沒有把所有前人提出的網絡都按照相同 setting 訓練一遍,而且這位 reviewer 還問爲什麼不比一下 SKNet + ResNet50D 這個不曾出現在前人工作中的網絡。我覺得一定是出於對學術的嚴謹性給出的 strong reject,我非常感謝大家對我們工作的嚴格要求,在改投之前一定會把補充實驗補充好(其實最近已經在做了)。

我之前也說過,這篇文章不是要解決分類問題,因爲我認爲分類問題是已經解決了的問題。最近領域內的基礎網絡研究和下游應用脫節。EfficientNet 很成功,但是它與下游應用已有的算法不兼容。我們訓練網絡中使用了一些 EfficientNet 的訓練方法,比如 Auto Augment,但是請問爲什麼 ResNet 系列就不能用訓練技巧。而且 Ablation Study 裏面已經展示了,我們並沒有使用精度最好的 setting 來做backbone,而是選擇一個 latency 較小的,主要就是爲了下游應用考慮。

我們不重複造輪子,希望做的網絡能夠和前人工作最好地兼容起來。這個網絡替換原有 ResNet,可以提高3%左右,甚至在不使用任何技巧的情況下,直接在各個下游應用的主流數據集中取得 SoTA 的結果。希望這個網絡能夠對領域內的工作有所啓發,其實我們並沒有真正在意多一篇頂會文章。

請給我一個在看

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章