人工智能領域又一突破!京東探索研究院推出超級深度學習模型ViTAEv2 準確度高達91.2%

日前,京東探索研究院聯合悉尼大學提出了更大規模、更優效果、對各類視覺任務具有更好適應性的超級深度學習模型ViTAEv2。值得提及的是,具有6億參數的ViTAEv2模型在不依賴任何外源數據的情況下,斬獲了ImageNet Real數據集分類準確度“世界排名第一”的突出成績,精準高達91.2%,成功刷新圖片分類技術領域的世界級紀錄。

一直以來,ImageNet數據集作爲目前最大的"圖像分類"公開數據集,其識別準確率榜單吸引了包括谷歌、微軟、Facebook等國際頂尖科技公司以及斯坦福大學、麻省理工大學、新加坡國立大學等知名高校在內的關注並參與,其數據指標一度被廣泛應用於衡量計算機視覺技術水平高下的重要標準,影響深遠。

計算機視覺技術作爲人工智能核心科技之一,目的是賦予機器以觀察、感知和理解的能力,而圖像分類作爲計算機視覺的基礎任務更是被廣泛認知。本次“榜上有名”的ViTAEv2模型採用了“預訓練-微調”範式,從模型架構和訓練範式進行突破,充分利用了歸納偏置在大規模模型的有效性,以及與模型結構相適應的預訓練算法與遷移學習算法來達成目標效果。

“另外我們還探索了大規模ViTAEv2模型的少樣本學習能力,也就是分別使用1%、10%以及100%的數據對大規模ViTAEv2模型進行微調,結果表明僅使用少量數據,即10%的數據進行微調時,大規模模型性能已顯著優於使用全部數據的規模較小的模型,進一步證實了大規模模型具有很強的少樣本學習能力,這說明超級深度模型具有強大的表徵能力、學習能力和樣本效率。”京東探索研究院方面表示。

此舉充分驗證了ViTAEv2模型有能力幫助解決低資源甚至是零資源下的挑戰性任務,以及降低數據標註成本、加速算法開發週期、簡化模型部署、賦能和促進新一代自動化學習技術的研發和落地的傑出能力。

值得肯定的是,ViTAEv2模型的優異表現助力京東探索研究院計算機視覺模型水平再上新臺階,後續有望繼續推動一系列視覺任務的發展,例如語義分割、物體檢測、姿態估計、視頻物體分割等。未來,如何從訓練方法、模型架構設計等方向進一步提升ViTAEv2模型的性能並同時降低訓練和推理的成本,是值得進一步探索的研究方向。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章