Objects365 - 最新大規模高質量目標檢測數據集

投稿作者:極鏈AI研究院顧寅錚

 

今年4月,在北京舉行的智源學者計劃啓動暨聯合實驗室發佈會上,北京曠視科技有限公司與北京智源人工智能研究院共同發佈了全球最大的目標檢測數據集 – Objects365。

該數據集總共包含63萬張圖像,覆蓋365個類別,高達1000萬框數,具有規模大、質量高、泛化能力強的特點,遠超Pascal VOC、COCO等傳統數據集。關於Objects365的論文 [1] 近日在兩年一度的計算機視覺頂會ICCV 2019中發表,同時在不久前結束的谷歌目標檢測賽Open Images Challenge 2019 – Object Detection Track [2] 中排名前三的隊伍都使用了Objects365作爲額外數據集並取得mMAP平均提升2至3個百分點。

1. 規模

數據集包括人、衣物、居室、浴室、廚房、辦公、電器、交通、食物、水果、蔬菜、動物、運動、樂器14個大類,平均每一類有大約26個小類。

Objects365與其他數據集的比較

如圖1所示,比起COCO數據集 [3],Objects365具有5倍的圖像數量、4倍的類別數量、以及10倍以上標註框數量。在數量上,唯一規模超過Objects365的OpenImages數據集 [4] 具有標註精度不高及覆蓋不全等明顯缺點 (partially annotated),這對模型訓練會帶來嚴重影響。比起OpenImages,Objects365具有每張圖中所有物體都被標註的優勢,這在Boxes/img這列 (15.8 vs. 9.8) 得到體現:在類別數少 (365 vs. 500) 的情況下達到平均每張圖包含1.6倍的標註框。

2. 質量

圖2:

如圖2所示,即便只考慮Objects365在COCO和VOC數據集中的80類和20類,在每張圖像平均框數和類別數這兩項指標上,Objects365依然優於COCO和VOC。標註過程中減少了漏標,平均標註區域佔比也超過COCO和VOC。

物都有精準的標註框。

3. 泛化能力

比起上述兩項,鑑定一個數據集質量很重要的一項指標便是其泛化能力。

預訓練數據集與ImageNet的比較

如圖3所示,比起傳統預訓練數據集ImageNet [5],使用Objects365預訓練可達到在訓練時間縮短至六分之一 (90K次迭代 vs. 540K次迭代) 的情況下mMAP提升2.7個百分點(檢測模型使用ResNet50+FPN作爲Backbone的Faster RCNN)。

另外,在其他計算機視覺任務,如行人檢測、語義/場景分割等,中使用Objects365作爲預訓練數據集都可達到速度與精度的明顯提升,詳情可參照論文 [1]。

4. 結語

隨着近年來計算機視覺技術的飛速發展,算法對數據的要求也越來越高。不論是目標檢測或語義分割等傳統任務,又或是目標關係等新推出或還未推出的新任務,現有的數據集顯然不能滿足需求。相對於算法,優質數據集往往能對模型效果帶來更大的提升,無論是數據規模又或是標註質量,Objects365都爲計算機視覺技術樹立了新的里程碑。

參考文獻:

[1] Shao et al., Objects365: A Large-scale, High-quality Dataset for Object Detection, ICCV 2019.

[2] storage.googleapis.com/openimages/web/challenge2019.html

[3] Lin et al., Microsoft COCO: Common objects in context, ECCV 2014.

[5] Deng et al., ImageNet: A Large-scale Hierarchical Image Database, CVPR 2009.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章