SimMIM：更簡單的掩碼圖像建模

原創

2023-01-30 21:24

出品人：Towhee 技術團隊張晨、顧夢佳

掩碼圖像建模（MIM）通常會將輸入 token 的隨機子集替換爲一個特殊的掩碼符號，目的是從損壞的圖像重建原始圖像 token。SimMIM 系統分析了該方法中的主要組件，從而提出了無需特殊設計、更爲簡單的掩碼圖像框架。將簡化後的 MIM 應用到 ViT-B，其預訓練模型在公開的圖像數據集 ImageNet-1K 上能夠實現 83.8% 的 top-1 微調精度，成功超越之前最優模型。當使用更大模型 SwinV2-H 時，SimMIM 僅需用 ImageNet-1K 訓練便能實現 87.1% 的 top-1 精度。SimMIM 還促進了 3B 模型 (SwinV2-G) 的訓練，減少 40 倍的訓練數據也能讓模型在四個具有代表性的視覺基準上達到最先進的水平。

An illustration of SimMIM.

SimMIM 發現在掩碼圖像建模中，每個組件的簡單設計都顯示出非常強的表徵學習能力。當輸入圖像的隨機掩碼具有適度的掩碼塊大小時（例如 32），能夠產生強大的前置任務。直接回歸預測 RGB 值的原始像素，其性能也能夠媲美複雜設計的 patch 分類方法。另外，研究發現像線性層一樣的輕量預測頭的性能並不比多層的差。SimMIM 最終採用 Swin-B 作爲默認 backbone，通過輕量級單層頭預測隨機掩碼塊的原始像素值，並使用簡單的 L1 損失進行學習。

相關資料：

代碼地址：https://github.com/microsoft/SimMIM

論文鏈接：SimMIM: A Simple Framework for Masked Image Modeling

更多資料：SimMIM | 續Kaiming的MAE後，MSRA提出更簡單的掩碼圖像建模框架！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

解決報錯pip：urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool

問題：pip：urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool 在使用pip install命令安裝第三方庫時經常會有下面這個報

2024-04-26 00:42:45

從零開始學架構V2-架構設計流程-2

一、架構設計流程架構的設計的是爲了降低整體的複雜性，那麼架構設計的第一步就是熟悉業務，識別其中的核心訴求，僅考慮技術的話就是識別複雜度。 1.1 識別複雜度架構的複雜度主要來源於第一節中介紹的“高性能”“高可用”“可擴展”等幾個方面，實

2024-04-25 23:56:26

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

高德地圖爬蟲實踐：Java多線程併發處理策略

背景介紹高德地圖是一款基於互聯網和移動互聯網的地圖與導航應用，提供了包括地圖瀏覽、公交查詢、駕車導航、步行導航等在內的多種功能。其龐大的用戶羣體和豐富的地圖數據成爲了各行各業進行位置服務、地理信息分析等應用的首選。爬蟲實踐需求在

2024-04-25 23:26:44

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

三十分鐘入門基礎Go（Java小子版）

前言 Go語言定義 Go（又稱 Golang）是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 開發的一種靜態、強類型、編譯型語言。Go 語言語法與 C 相近，但功能上有：內存安

2024-04-25 23:17:43

實踐探討Python如何進行異常處理與日誌記錄

本文分享自華爲雲社區《Python異常處理與日誌記錄構建穩健可靠的應用》，作者：檸檬味擁抱。異常處理和日誌記錄是編寫可靠且易於維護的軟件應用程序中至關重要的組成部分。Python提供了強大的異常處理機制和靈活的日誌記錄功能，使開發人員能夠

2024-04-25 22:33:43

HCDG天津站精彩回顧 | AI高效開發， ModelArts技術動手工作坊

4月20日， HCDG城市行·天津站——“極快至簡靈活部署”我想象中的AI高效開發ModelArts技術工作坊圓滿舉辦。活動特邀來自華爲雲DTSE、華爲云云享專家、以及天津軟件技術協會的夥伴企業專家們爲與會開發者帶來一場別開生面的技術交流

2024-04-25 22:33:41

意派Epub360丨518國際博物館日H5，每個都大有看頭！

在文旅融合的當下，博物館成爲了很多人旅遊清單中的優先“打卡地”，而博物館文創產品也廣受大衆喜愛，並屢屢掀起消費熱潮。 518國際博物館日即將來臨，什麼形式的H5更適合用來宣傳博物館及相應的文物、活動呢？來看看高手們都是怎麼做的吧~

2024-04-25 22:25:00

使用前端技術創建 QR 碼生成器 API

前言 QR碼（Quick Response Code）是一種二維碼，於1994年開發。它能快速存儲和識別數據，包含黑白方塊圖案，常用於掃描獲取信息。QR碼具有高容錯性和快速讀取的優點，廣泛應用於廣告、支付、物流等領域。通過掃描QR碼，用戶可

2024-04-25 22:23:53

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

客戶案例｜Zilliz Cloud 助力 AI 在線教育：智慧樹的創新之路

在信息技術飛速發展的今天，教育行業正經歷着一場深刻的變革。智慧樹，作爲全球領先的學分課程運營服務平臺，始終站在教育創新的前沿。爲了進一步提升教育質量和效率，智慧樹攜手 Zilliz Cloud，共同開啓了一場教育與技術的深度融合之旅。通過

2024-04-25 21:20:29

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

前端面試題 - 元素的innerText outerText innerHTML的區別？

前端面試題 - 元素的innerText outerText innerHTML的區別？ innerText和outerText取值都是對象起始和結束標籤內部的文本內容。但是在設置的時候，outerText會把該標籤也替換掉。 inner

2024-04-25 11:51:02

前端面試題 - 在HTML5中DOCTYPE的作用是什麼？標準與兼容模式（混雜模式）各有什麼區別？

前端面試題 - 在HTML5中DOCTYPE的作用是什麼？標準與兼容模式（混雜模式）各有什麼區別？ DOCTYPE（文檔類型聲明）是一種在HTML文檔中使用的標記，用於告訴瀏覽器使用哪個HTML版本解析文檔。它的作用是確保瀏覽器正確地渲染和

2024-04-25 11:51:01

24小時熱門文章

最新文章

最新評論文章