出品人:Towhee 技術團隊 張晨、顧夢佳
掩碼圖像建模(MIM)通常會將輸入 token 的隨機子集替換爲一個特殊的掩碼符號,目的是從損壞的圖像重建原始圖像 token。SimMIM 系統分析了該方法中的主要組件,從而提出了無需特殊設計、更爲簡單的掩碼圖像框架。將簡化後的 MIM 應用到 ViT-B,其預訓練模型在公開的圖像數據集 ImageNet-1K 上能夠實現 83.8% 的 top-1 微調精度,成功超越之前最優模型。 當使用更大模型 SwinV2-H 時,SimMIM 僅需用 ImageNet-1K 訓練便能實現 87.1% 的 top-1 精度。SimMIM 還促進了 3B 模型 (SwinV2-G) 的訓練,減少 40 倍的訓練數據也能讓模型在四個具有代表性的視覺基準上達到最先進的水平。
An illustration of SimMIM.
SimMIM 發現在掩碼圖像建模中,每個組件的簡單設計都顯示出非常強的表徵學習能力。當輸入圖像的隨機掩碼具有適度的掩碼塊大小時(例如 32),能夠產生強大的前置任務。直接回歸預測 RGB 值的原始像素,其性能也能夠媲美複雜設計的 patch 分類方法。另外,研究發現像線性層一樣的輕量預測頭的性能並不比多層的差。SimMIM 最終採用 Swin-B 作爲默認 backbone,通過輕量級單層頭預測隨機掩碼塊的原始像素值,並使用簡單的 L1 損失進行學習。
相關資料:
代碼地址:https://github.com/microsoft/SimMIM