點擊下方“AI算法與圖像處理”，一起進步！
重磅乾貨，第一時間送達

ICCV 2021 數據集彙總

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo#dataset

諸如VAE、pix2pix和SPADE等流行模型的感知質量和定量性能。我們進一步展示了它在StyleGAN2上的潛力。

FineAction: A Fined Video Dataset for Temporal Action Localization

paper：https://arxiv.org/abs/2105.11107

數據集：https://deeperaction.github.io/fineaction/

說明：

爲了將時間動作定位提升到一個新的水平，我們開發了FineAction，一個從現有視頻數據集和web視頻中收集的新的大規模精細視頻數據集。總的來說，該數據集包含139K個精細動作實例，在跨越106個動作類別的近17K個未剪輯視頻中進行了密集註釋。

KoDF: A Large-scale Korean DeepFake Detection Dataset

https://arxiv.org/abs/2103.10094

https://moneybrain-research.github.io/kodf

面對不斷出現的deepfakes威脅，我們建立了Korean DeepFake檢測數據集（KoDF），這是一個大規模的合成和真實視頻集合。

LLVIP: A Visible-infrared Paired Dataset for Low-light Vision

https://arxiv.org/abs/2108.10831

https://bupt-ai-cz.github.io/LLVIP/

在弱光條件下，由於有效目標區域的丟失，對圖像融合、行人檢測和圖像到圖像的轉換等各種視覺任務來說都是非常具有挑戰性的。在這種情況下，紅外和可見光圖像可以一起使用，以提供豐富的細節信息和有效的目標區域。在本文中，我們介紹了LLVIP，一個用於弱光視覺的可見-紅外配對數據集。該數據集包含33672幅圖像，或16836對圖像，其中大部分是在非常黑暗的場景中拍攝的，所有圖像在時間和空間上都嚴格對齊。

Meta Self-Learning for Multi-Source Domain Adaptation: A Benchmark

https://arxiv.org/abs/2108.10840

https://bupt-ai-cz.github.io/Meta-SelfLearning/

由於訓練數據和測試數據之間的域轉移，模型可能會被破壞。文本識別是計算機視覺中一個廣泛研究的領域，由於字體的多樣性和複雜的背景，文本識別也面臨上述問題。我們收集了一個用於文本識別的多源域自適應數據集，包括五個不同的域，包含超過500萬張圖像，這是我們所知的第一個多域文本識別數據集。

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

https://arxiv.org/abs/2105.07404

https://deeperaction.github.io/multisports/

時空行爲檢測是視頻理解中一個重要且具有挑戰性的問題。現有的動作檢測基準僅限於視頻剪輯中的少量實例或低級原子動作。本文旨在提出一種新的時空局部化運動行爲的多人數據集，即MultiSports。我們首先通過提出三個標準來分析構建真實且具有挑戰性的時空動作檢測數據集的重要因素：（1）多人場景和運動相關識別，（2）具有良好定義的邊界，（3）相對細粒度的高複雜度類。基於這些指導原則，我們選擇了4個體育類，收集了3200個視頻片段，並用902k邊界框註釋了37701個動作實例，構建了MultiSports v1.0的數據集。

Semantically Coherent Out-of-Distribution Detection

https://arxiv.org/abs/2108.11941

https://jingkang50.github.io/projects/scood

當前分佈外（OOD）檢測基準通常是通過將一個數據集定義爲分佈內（ID），將所有其他數據集定義爲OOD來構建的。然而，不幸的是，這些基準引入了一些不必要和不切實際的目標，例如，完美區分CIFAR狗和ImageNet狗，儘管它們具有相同的語義和可忽略的協變量變化。這些不切實際的目標將導致模型功能的範圍非常狹窄，極大地限制了它們在實際應用中的使用。爲了克服這些缺點，我們重新設計了基準測試，並提出了語義一致分佈外檢測（SC-OOD）。在SC-OOD基準測試中，現有方法的性能大幅下降，這表明它們對數據源之間的低級差異極爲敏感，而忽略了其固有的語義。爲了開發一種有效的SC-OOD檢測方法，我們利用外部未標記集，設計了一個簡潔的框架，該框架以無監督雙分組（UDG）爲特徵，用於ID和OOD數據的聯合建模。該UDG不僅可以在無監督的情況下利用未標記的數據來豐富模型的語義知識，還可以區分ID/OOD樣本以同時增強ID分類和OOD檢測任務。

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization

https://arxiv.org/abs/2006.16241

https://github.com/hendrycks/imagenet-r

我們將介紹四個新的真實世界分佈轉移數據集，包括圖像樣式、圖像模糊度、地理位置、相機操作等方面的變化。利用我們的新數據集，我們評估了先前提出的提高分佈外魯棒性的方法，並對它們進行了測試。我們發現使用更大的模型和人工數據增強可以提高對真實世界分佈變化的魯棒性，這與先前工作中的主張相反。我們發現，人工魯棒性基準的改進可以轉化爲現實世界的分佈變化，這與先前工作中的主張相反。基於我們觀察到的數據增強有助於實現現實世界的分佈變化，我們還引入了一種新的數據增強方法，該方法提高了最先進的技術水平，並優於使用1000倍以上標記數據進行預訓練的模型。

Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach

https://arxiv.org/abs/2108.02399

https://github.com/NUST-Machine-Intelligence-Laboratory/weblyFG-dataset

從網絡學習可以緩解深度學習對大規模手動標記數據集的極端依賴。特別是針對區分從屬類別的細粒度識別，它將通過利用免費web數據顯著降低標記成本。儘管具有重要的實用價值和研究價值，但由於缺乏高質量的數據集，網絡監督的細粒度識別問題在計算機視覺領域沒有得到廣泛的研究。爲了填補這一空白，在本文中，我們構建了兩個新的基準webly監督細粒度數據集，分別稱爲WebFG-496和WebiNat-5089。具體而言，WebFG-496由三個子數據集組成，共包含53339張網絡訓練圖像，其中包括200種鳥類（網絡鳥）、100種飛機（網絡飛機）和196種汽車模型（網絡汽車）。對於WebiNat-5089，它包含5089個子類別和110多萬張web訓練圖像，這是有史以來最大的webly監督細粒度數據集。

Who's Waldo? Linking People Across Text and Images

https://arxiv.org/abs/2108.07253

https://whoswaldo.github.io/

我們提出了一個任務和基準數據集，用於以人爲中心的視覺基礎，即標題中命名的人和圖像中的人物之間的鏈接問題。與之前主要基於對象的視覺基礎研究不同，我們的新任務掩蓋了字幕中的人名，以鼓勵在此類圖像字幕對上訓練的方法關注上下文線索（如多人之間的豐富互動），而不是學習名字和外表之間的聯繫。爲了促進這項任務，我們引入了一個新的數據集，Who'swaldo，它是從wikimediacomons上的圖像標題數據中自動挖掘出來的。我們提出了一種基於Transformer的方法，它優於這個任務上的幾個強基線，並將我們的數據發佈到研究社區，以刺激工作的上下文模型考慮視覺和語言。

Sam Schulz passes to Curtly Hampton during the UWS Giants vs Eastlake NEAFL match at the Robertson Oval on 1 August 2015.

Justyna Kowalczyk, Kikkan Randall and Ingvild Flugstad Østberg at the Royal Palace Sprint, part of the FIS World Cup 2012/2013, in Stockholm on March 20, 2013. Kikkan Randall won the sprint cup.

努力分享優質的計算機視覺相關內容，歡迎關注：

交流羣

歡迎加入公衆號讀者羣一起和同行交流，目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫學影像、GAN、算法競賽等微信羣

     
        
        
        
      
         
         
         個人微信（如果沒有備註不拉羣！）
     
        
        
        
     
        
        
        
      
         
         
         請註明：
      
         
         
         地區+學校/企業+研究方向+暱稱
     
        
        
        
     
        
        
        
      
         
         
         

     
        
        
        


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


   
      
      
      
    
       
       
       

   
      
      
      
   
      
      
      
    
       
       
       下載3 CVPR2021
   
      
      
      
   
      
      
      
    
       
       
       

   
      
      
      
   
      
      
      
    
       
       
       在「AI算法與圖像處理」公衆號後臺回覆：
    
       
       
       CVPR
    
       
       
       ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

ICCV2021 新增數據集彙總 | 含時序動作定位、時空行爲檢測、弱光目標檢測等！

ICCV 2021 數據集彙總

FineAction: A Fined Video Dataset for Temporal Action Localization

KoDF: A Large-scale Korean DeepFake Detection Dataset

LLVIP: A Visible-infrared Paired Dataset for Low-light Vision

Meta Self-Learning for Multi-Source Domain Adaptation: A Benchmark

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

Semantically Coherent Out-of-Distribution Detection

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization

Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach

Who's Waldo? Linking People Across Text and Images

ollama使用

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

TiDB Vector 太香啦：以圖搜圖初體驗！

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

有遇到過嗎？同樣的規則 Excel 中比Python 結果大

ollama使用

分享一份物聯網SAAS平臺架構設計

「Qt Widget中文示例指南」如何實現一個快捷編輯器（一）

解鎖HDC 2024之旅：從購票到報名，全程攻略

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結