CVPR2020最佳論文下載、解讀&歷屆 CVPR 最佳論文彙總

本屆CVPR 2020最佳論文即將揭曉,敬請期待!


本文彙總了從 2000 ~ 2019年曆屆** CVPR 會議最佳論文**,附上作者和論文鏈接(論文題目含超鏈),部分含論文解讀和代碼。文末有最佳論文合集的 下載鏈接~

值得注意的是:香港中文大學湯曉鷗教授、博士生何愷明與微軟亞洲研究院孫劍合作取得的有關圖像去霧的論文(CVPR 2009)是自CVPR設立以來第一次由我國研究單位爲主取得的 CVPR最佳論文獎。

西北工業大學何明一教授及其博士生戴玉超以及澳大利亞國立大學高級研究人員Hongdong Li博士合作完成的論文“一種簡單的不需要先驗信息的非剛性結構與運動恢復方法 "獲得了CVPR 2012 最佳論文獎,西北工業大學也因此成爲中國大陸第一個獲得計算機視覺頂級會議最佳論文的研究機構。


2019(1篇)

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
非視線形狀重建的費馬路徑理論

作者: 辛書冕, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan and Ioannis Gkioulekas

核心內容: 我們提出了一個新的理論,即在一個已知的可見場景和一個不在瞬態相機視線範圍內的未知物體之間的費馬路徑(fermat path)。這些光路或者遵守鏡面反射,或者被物體的邊界反射,從而編碼隱藏物體的形狀。
我們證明費馬路徑對應於瞬態測量中的不連續性。基於此,我們推導出一種新的約束,它將這些不連續處的路徑長度的空間導數與表面法線相關聯。
基於這一理論,我們提出了一種名爲Fermat Flow的算法來估計非視距物體的形狀。我們的方法第一次實現複雜對象的精確形狀恢復,範圍從隱藏在拐角處以及隱藏在漫射器後面的漫反射到鏡面反射。
最後,我們的方法與用於瞬態成像的特定技術無關。因此,我們展示了使用SPAD和超快激光從皮秒級瞬態恢復的毫米級形狀,以及使用干涉測量法從飛秒級瞬態微米級重建。我們相信,這項工作是非視距成像技術的重大進步。

獲獎理由: 這篇論文作出重大進步的問題是非視線內的物體形狀重建,換句話說就是能看到牆角後面的東西。這篇論文的理論部分非常優美,而且同樣非常給人帶來激勵。它把計算機視覺所能解決的問題的邊界繼續向前推進了一步。

CVPR 2019最佳論文得主專訪:非視距形狀重建的費馬路徑理論


2018(1篇)

Taskonomy: Disentangling Task Transfer Learning
任務學:任務遷移學習的解耦

作者: Amir R. Zamir, Stanford University;Alexander Sax, Stanford University;
沈博魁, Stanford University;Leonidas Guibas, Stanford University;
Jitendra Malik, University of California Berkeley;Silvio Savarese, Stanford University

核心內容: 論文研究了一個非常新穎的課題,那就是研究視覺任務之間的關係,根據得出的關係可以幫助在不同任務之間做遷移學習。該論文提出了「Taskonomy」——一種完全計算化的方法,可以量化計算大量任務之間的關係,從它們之間提出統一的結構,並把它作爲遷移學習的模型。實驗設置上,作者首先找來一組一共 26 個任務,當中包括了語義、 2D、2.5D、3D 任務,接着爲任務列表裏的這 26 個任務分別訓練了 26 個任務專用神經網絡。結果顯示,這些遷移後的模型的表現已經和作爲黃金標準的任務專用網絡的表現差不多好。論文提供了一套計算和探測相關分類結構的工具,其中包括一個求解器,用戶可以用它來爲其用例設計有效的監督策略。

論文解讀

代碼鏈接

CVPR2018最佳論文演講:研究任務之間的聯繫纔是做遷移學習的正確姿勢

CVPR2018 筆記 Taskonomy: Disentangling Task Transfer Learning

Taskonomy的網站:taskonomy.stanford.edu.

【CVPR 2018 最佳論文出爐】斯坦福等名校折桂,何愷明獲年輕研究員獎


2017(2篇)

Densely Connected Convolutional Networks
密集連接的卷積網絡

作者: 劉壯, 清華大學;黃高, Cornell University;
Laurens van der Maaten, Facebook AI Research;Kilian Q. Weinberger, Cornell University

核心內容: 近期的研究已經展現這樣一種趨勢,如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短,網絡就基本上可以更深、更準確,訓練時也更高效。這篇論文就對這種趨勢進行了深入的研究,並提出了密集卷積網絡(DenseNet),其中的每一層都和它之後的每一層做前饋連接。對於以往的卷積神經網絡,網絡中的每一層都和其後的層連接,L 層的網絡中就具有 L 個連接;而在 DenseNet 中,直接連接的總數則是 L(L+1)/2 個。對每一層來說,它之前的所有的層的 feature-map 都作爲了它的輸入,然後它自己的 feature-map 則會作爲所有它之後的層的輸入。

論文解讀: CVPR 2017最佳論文解讀:密集連接卷積網絡

代碼鏈接:
Torch implementation:

PyTorch implementation:

MxNet implementation:

Caffe implementation:


Learning from Simulated and Unsupervised Images through Adversarial Training
通過對抗訓練從模擬的和無監督的圖像中學習

作者: Ashish Shrivastava, Apple Inc.;Tomas Pfister, Apple Inc.;
Oncel Tuzel, Apple Inc.;Josh Susskind, Apple Inc.;
Wenda Wang, Apple Inc.;Russ Webb, Apple Inc.

核心內容: 隨着圖像領域的進步,用生成的圖像訓練機器學習模型的可行性越來越高,大有避免人工標註真實圖像的潛力。但是,由於生成的圖像和真實圖像的分佈有所區別,用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那麼好。爲了縮小這種差距,論文中提出了一種模擬+無監督的學習方式,其中的任務就是學習到一個模型,它能夠用無標註的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標註信息。論文中構建了一個類似於 GANs 的對抗性網絡來進行這種模擬+無監督學習,只不過論文中網絡的輸入是圖像而不是隨機向量。爲了保留標註信息、避免圖像瑕疵、穩定訓練過程,論文中對標準 GAN 算法進行了幾個關鍵的修改,分別對應「自我正則化」項、局部對抗性失真損失、用過往的美化後圖像更新鑑別器。

這是奉行保密文化的蘋果公司所發佈的第一篇 AI 論文,標誌着蘋果公開 AI 學術研究成果、對外敞開大門的第一步。該論文發表於去年 12 月,提出了由三部分(模擬器 Simulator,精製器 Refiner,再加上一個判別器 Discriminator)組成的 SimGAN 訓練方法。
有意思的是,當初就有學者對這篇論文的含金量提出質疑,認爲蘋果這份論文“試水”的意義遠大於研究本身的意義。

論文詳解


2016(1篇)

Deep Residual Learning for Image Recognition
圖像識別中的深度殘差學習

作者: 何凱明, Microsoft Research;張翔宇, Microsoft Research;
任少卿, Microsoft Research;孫劍, Microsoft Research

核心內容: 在現有基礎下,想要進一步訓練更深層次的神經網絡是非常困難的。我們提出了一種減輕網絡訓練負擔的殘差學習框架,這種網絡比以前使用過的網絡本質上層次更深。我們明確地將這層作爲輸入層相關的學習殘差函數,而不是學習未知的函數。同時,我們提供了全面實驗數據,這些數據證明殘差網絡更容易優化,並且可以從深度增加中大大提高精度。我們在 ImageNet 數據集用 152 層–比 VGG 網絡深 8 倍的深度來評估殘差網絡,但它仍具有較低的複雜度。在 ImageNet 測試集中,這些殘差網絡整體達到了 3.57% 的誤差。該結果在 2015 年大規模視覺識別挑戰賽分類任務中贏得了第一。此外,我們還用了 100 到 1000 層深度分析了的 CIFAR-10。
對於大部分視覺識別任務,深度表示是非常重要的。僅由於極深的表示,在 COCO 對象檢查數據時,我們就得到了近 28% 相關的改進。深度剩餘網絡是我們提交給 ILSVRC 和 COCO2015 競賽的基礎,而且在 ImageNet 檢測任務,ImageNet 定位,COCO 檢測和 COCO 分割等領域贏我們獲得了第一。

GitHub 鏈接


2015(1篇)

DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time
動態融合:實時非剛性場景的重建與跟蹤

作者: Richard A. Newcombe, University of Washington;Dieter Fox, University of Washington;
Steven M. Seitz, University of Washington

核心內容: 作者提出第一個結合商用傳感器對 RGBD 掃描結果進行捕獲,該結果可實時重建非剛性變形場景的密集 SLAM 系統。被稱作 DynamicFusion 的這種方法在重建場景幾何的當兒,還能同時估算一個密集體積的 6D 運動場景,並將估算結果變成實時框架。與 KinectFusion 一樣,該系統可以生成越來越多去噪、保留細節、結合多種測量的完整重建結果,並實時顯示最新的模型。由於該方法無需基於任何模板或過往的場景模型,因此適用於大部分的移動物體和場景。


2014(1篇)

What Camera Motion Reveals About Shape with Unknown BRDF
關於未知雙向反射分佈函數,攝像機運動揭示了什麼

作者: Manmohan Chandraker, NEC Labs America

核心內容: 作者提出了一種理論,用於解決在未知遠距離照明以及未知各向同性反射率下,運動物體的形狀識別問題,無論是正交投影還是穿透投影。該理論對錶面重建硬度增加了基本限制,與涉及的方法無關。在正交投影場景下,三個微分運動在不計 BRDF 和光照的情況下,可以產生一個將形狀與圖像導數聯繫起來的不變量。而在透視投影場景下,四個微分運動在面對未知的 BRDF 與光照情況,可以產生基於表面梯度的線性約束。此外,論文也介紹了通過不變量實現重建的拓撲類。

最後,論文推導出一種可以將形狀恢復硬度與場景複雜性聯繫起來的通用分層。從定性角度來說,該不變量分別是用於簡單照明的均勻偏微分方程,以及用於複雜照明的非均勻方程。從數量角度來說,該框架表明需要更多的最小運動次數來處理更復雜場景的形狀識別問題。關於先前假設亮度恆定的工作,無論是 Lambertian BRDF 還是已知定向光源,一律被被當作是分層的特殊情況。作者利用合成與真實數據進一步說明了重建方法可以如何更好地利用這些框架。

2013(1篇)

Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
在單個機器上快速、準確地對100,000個物體類別進行檢測

作者: Thomas Dean, Google;Mark A. Ruzon, Google;
Mark Segal, Google;Jonathon Shlens, Google;
Sudheendra Vijayanarasimhan, Google;Jay Yagnik, Google

核心內容: 許多物體檢測系統受到將目標圖像與過濾器結合進行卷積所需時間的約束,這些過濾器從不同的角度對物件的外表(例如物體組件)進行編碼。作者利用局部敏感散列這點,將卷積中的點積內核運算符替換爲固定數量的散列探測器,這些探測器可以在無視濾波器組大小情況下,及時、有效地對所有濾波器響應進行採樣。
爲了向大家展示技術的有效性,作者將其用於評估 100,000 組可變形零件模型,模型將根據目標圖像的多個維度需要運用超過一百萬個濾波器,作者需在 20 秒內通過 20GB RAM 的單個多核處理器來達成評估目標。實驗結果顯示,與其他同樣硬件配置下執行卷積的系統相比,該模型獲得了大約 20,000 倍的提速 - 相等於四個量級。模型在針對 100,000 個物體類別的平均精確度達到了 0.16,主要因爲在訓練數據與基本實施的收集上面臨挑戰,最終模型在三分之一類別上實現至少 0.20 的 mAP,另外在大約 20%的類別上實現 0.30 或更高的 mAP。


## **2012**(1篇) [A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization](https://www.researchgate.net/profile/Mingyi_HE/publication/261200440_A_Simple_Prior-Free_Method_for_Non-rigid_Structure-from-Motion_Factorization/links/5596951608ae21086d21990b.pdf) 一種簡單的不需要先驗信息的非剛性結構與運動恢復方法

作者: 戴玉超, 西北工業大學;Hongdong Li, Australian National University;
何明一, 西北工業大學

核心內容: 作者提出一種簡單的「無先驗」方法來解決非剛性結構的運動因子分解問題。除了基本的低秩條之外,該方法無需任何關於非剛性場景或相機運動的先驗知識。即便如此,它依然得以穩定運行,併產生最佳結果,且不受許多傳統非剛性分解技術的基礎 - 模糊性問題(basis-ambiguity issue)困擾。
該方法易於實現,可以解決包括小型與固定大小的 SDP(半定規劃)、線性最小二乘或範數最小化追蹤等問題。大量實驗結果表明,該方法優於現有的多數非剛性因子分解線性方法。本論文不僅提供全新的理論見解,同時提供了一種適用於非剛性結構運動分解的實用日常解決方案。


## **2011**(1篇) [Real-time Human Pose Recognition in Parts from Single Depth Images](https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf) 針對單個深度圖像部件的實時人體姿態識別模型

作者: Jamie Shotton, Microsoft Research;Andrew Fitzgibbon, Microsoft Research;
Mat Cook, Microsoft Research;Toby Sharp, Microsoft Research;
Mark Finocchio, Microsoft Research;Richard Moore, Microsoft Research;
Alex Kipman, Microsoft Research;Andrew Blake, Microsoft Research

核心內容: 作者提出一種可以基於無時間信息從單個深度圖像中快速、準確預測身體關節 3D 位置的方法。通過採用物體識別方法設計出身體部位的間接表示,進而將有難度的姿勢估計問題映射爲簡單的每像素分類問題。作者同通過龐大、多樣化的訓練數據集,讓分類器可以針對身體部位的姿勢、身體形狀、衣服等不變量進行預估,進而通過重新投影分類結果找到局部模式,最終生成具有置信度的身體關節 3D 建模。

該系統能在消費類硬件上以每秒 200 幀的速度運行。評估系統在合成與實際測試集的處理結果中顯示了高精度,並分析了幾個訓練參數對此的影響。與相關工作相比,該模型實現了目前最先進的精度,並在全骨架最近鄰匹配上有了很大進步。

論文解讀

2010(1篇)

Efficient computation of robust low-rank matrix approximations in the presence of missing data using the L1 norm
利用L1範數對數據缺失的魯棒低秩近似矩陣進行有效計算

作者: Anders Eriksson & Anton va den Hendel, University of Adelaide

核心內容: 低秩近似矩陣計算是許多計算機視覺應用中的基礎操作。這類問題的主力解決方案一直是奇異值分解(Singular Value Decomposition)。一旦存在數據缺失和異常值,該方法將不再適用,遺憾的是,我們經常在實踐中遇到這種情況。
論文提出了一種計算矩陣的低秩分解法,一旦丟失數據時會主動最小化 L1 範數。該方法是 Wiberg 算法的代表——在 L2 規範下更具說服力的分解方法之一。通過利用線性程序的可區分性,可以對這種方法的基本思想進行擴展,進而包含 L1 問題。結果表明,現有的優化軟件可以有效實現論文提出的算法。論文提供了令人信服、基於合成與現實數據的初步實驗結果。


## **2009**(1篇) [Single Image Haze Removal Using Dark Channel Prior](https://projectsweb.cs.washington.edu/research/insects/CVPR2009/award/hazeremv_drkchnl.pdf) 暗通道先驗去霧

作者: 何凱明, 香港中文大學;孫劍, Microsoft Research;
湯曉鷗, 香港中文大學

核心內容: 本文中提出了一個簡單卻有效、針對單個輸入圖像的暗通道去霧法。暗通道先驗去霧法是一種戶外去霧圖像的統計方法,它主要基於一個關鍵的觀察——室外無霧圖像中的大多數局部斑塊包含一些像素,這些像素的強度起碼有一個顏色通道處於低狀態。使用這種基於霧度成像模型的先驗方法,我們可以直接估計圖像的霧霾厚度,藉此將圖像恢復至高質量的無霧狀態。各種模糊圖像的去霧結果證明了論文所提出先驗方法的成效。此外,我們可以通過該方法獲得高質量的深度圖。

論文解讀

2008(2篇)

Global Stereo Reconstruction under Second Order Smoothness Priors
二階平滑先驗下的全局立體重建

作者: Oliver Woodford, University of Oxford;Ian Reid, Oxford Brookes University;
Philip Torr, University of Oxford;Andrew Fitzgibbon, Microsoft Research

核心內容: 3D 曲面平滑度中的二階先驗是比一階先驗更好的典型場景模型。然而,基於全局推理算法(如圖形切割)的二階平滑先驗法未能與二階先驗很好地進行結合,因爲表達所需的三重集會產生難以處理的(非子模塊)優化問題。

本文表明三重集的推理可以獲得有效的優化。作者提出的優化策略是基於 α 擴展的最新研究結果,源自「QPBO」算法。該策略通過 QPBO 算法的最新擴展對提議深度圖進行重複合併。對於提案深度圖的來源並不受侷限,比如可以是α擴展的前平行平面,亦或者帶有任意參數設置的實際立體算法。最終實驗結果證明了二階先驗法以及框架優化策略的有效性。


Beyond Sliding Windows: Object Localization by Efficient Subwindow Search
超越滑動窗口:利用高效子窗口搜索實現對象定位

作者: Chistoph H. Lampert, Max Planck Institut;Matthew B. Blaschko, Max Planck Institut;
Thomas Hodmann, Google

核心內容: 大部分有效的物體識別系統都依賴於二進制分類,不過這種方法只能確認物體是否存在,而無法提供物體的實際位置。爲了實現物體定位功能,我們可以考慮採用滑動窗口法,然而這將大大增加計算成本,因爲必須在大量的候選子窗口上進行分類器函數評估。

爲此,論文提出了一種簡單而強大的分支界定方案,可以在所有可能子圖像上有效最大化大類分類器函數。它在次線性時間內提供基於全局最優解的收斂方案。論文展示了該方法如何適用於不同的檢測對象與場景。該方案實現的加速效果允許使用類似具有空間金字塔內核的 SVMs 或者基於χ2-距離的最近鄰分類器來進行物體定位,而在過去,這些分類器被認爲在處理相關任務時的速度太慢了。該方案在 UIUC 車輛數據集、PASCAL VOC 2006 數據集以及 PASCAL VOC 2007 競賽中均取得了最先進的結果。


## **2007**(1篇) [Dynamic 3D Scene Analysis from a Moving Vehicle](https://ieeexplore.ieee.org/abstract/document/4270171) 在移動工具中進行動態三維場景分析

作者: Bastian Leibe, ETH Zurich;Nico Cornelis, Katholieke Universiteit Leuven;
Kurt COrnelis, Katholieke Universiteit Leuven;Luc Van Gool, ETH Zurich

核心內容: 論文提出一個集成了全自動場景幾何估計、2D 物體檢測、3D 定位、軌跡估計和跟蹤功能的系統,以用於分析移動工具的動態場景。該系統的唯一輸入來源是汽車頂部經過校準的立體裝置。從這些視頻流中,我們得以實時估計 Structurefrom-Motion(SfM)和場景幾何。與此同時,作者還試圖執行多視圖/多類別對象識別,以檢測攝像裏的汽車和行人。

通過 SfM 自定位系統,我們可以將檢測到的 2D 對象轉換爲 3D 成像,並在真實世界的座標系中持續累積。隨後跟蹤模塊將對 3D 觀測結果進行分析,進而找到跟物理空間吻合的時空軌跡。最後,全局優化標準會將對象 - 對象交互(object-object interactions)考慮在內,以獲得精確的汽車和行人的 3D 定位和軌跡預估結果。論文展示了該集成系統在挑戰真實世界數據方面的表現,該數據集顯示了擁堵市區內的汽車行駛情況。


2006(1篇)

Putting Objects in Perspective
在透視場景中放置物體

作者: Derek Hoiem, Carnegie Mellon University;Alexei Efros, Carnegie Mellon University;
Martial Hebert, Carnegie Mellon University

核心內容: 圖像理解不僅需要考慮視覺世界中的元素,還需要考慮這些元素之間的相互作用。本文提出了一個在 3D 場景語境中進行局部對象檢測的框架,該框架主要基於物體、表面方向以及攝像機視點的相互作用。

大多數物體檢測方法會考慮圖像的比例和位置。通過對 3D 幾何進行概率預估(包括表面以及世界座標),我們可以將物體放置在透視圖中,進而對圖像的比例和位置變化進行建模。該方法通過對物體概率進行假設以細化幾何,藉此反映問題的週期性,反之亦然。該框架允許任意物體探測器進行「無痛」替換,且便於擴展至包括圖像理解在內的其他方面。最終實驗結果證實該綜合方法的優勢。


2005(1篇)

Real-Time Non-Rigid Surface Detection
實時非剛性表面檢測

作者: Julien Pilet, École Polytechnique Fédérale de Lausanne;Vincent Lepetit, École Polytechnique Fédérale de Lausanne;
Pascal Fua, École Polytechnique Fédérale de Lausanne

核心內容: 論文提出一種無需任何先驗知識、可實時檢測變形表面的方法。該方法從一組寬基線點開始,在物體未變形圖像及檢測圖像之間進行匹配。該匹配不僅可用於檢測,同時還可以用來計算點與點之間的精確映射。該算法在面對嚴重變形、光照變化、運動模糊以及遮擋問題時具有魯棒性。它在 2.8 GHz 的 PC 上以每秒 10 幀的速度運行,據作者瞭解,尚未有其他產生類似結果的技術。
將可變形網格與設計良好的魯邦性估計器進行結合,是該方法得以處理涉及大量參數的可變形表面建模,且獲得高達 95% 避免錯誤匹配率的關鍵,遠遠超過了實際要求。


2004(1篇)

Programmable Imaging using a Digital Micromirror Array
使用電子微鏡陣列實現可編程的圖像創建

作者: Shree K. Nayar, Columbia University;Vlad Branzoi, Columbia University;
Terry E. Boult, University of Colorado

核心內容: 論文介紹了可編程成像系統的概念。該成像系統爲人類或視覺系統提供了對系統輻射度與幾何特徵的控制方法。該靈活性是通過可編程微鏡陣列才得以實現的。我們可以通過把控空間和時間上的高精度來控制陣列方向,使得系統可以根據應用需要來靈活選擇並調製光線。

作者成功實現了一種基於數字微鏡裝置(DMD)的可編程成像系統,用於處理數字光。雖然設備的鏡像只能置於兩個鏡頭中的一個,結果卻表明該系統可以實現各種成像功能,其中包括高動態範圍成像、特徵檢測以及物體識別。論文在最後探討了如何在無需動用移動部件情況下,使用微鏡陣列進行視場控制。


2003(1篇)

Object Class Recognition by Unsupervised Scale-Invariant Learning
使用尺度無關的無監督學習實現物體類型識別

作者: Rob Fergus, University of Oxford;Pietro Perona, California Institute of Technology;
Andrew Zisserman, University of Oxford

核心內容: 論文提出一種通過尺度不變方法(scale invariant manner)從未標記、未分段的雜亂場景中學習並識別物體類模型的方法。這些物體被建模成靈活性的系列部件。概率表示方法被用於識別物體的所有方面,包括形狀、外觀、遮擋物以及相對比例。基於熵的特徵檢測器則用於對圖像內的區域及其比例做選擇。在這過程中,尺度不變對象模型的參數將被模型預估,這是通過最大似然設置(maximum-likelihood setting)中的期望最大化(expectation-maximization)來完成的。該模型基於貝葉斯方式對圖像進行分類。通過一系列在幾何約束類(例如面部,汽車)和柔性物體(例如動物)數據集上取得的優異結果,證明了該模型的靈活性。


2001(1篇)

Morphable 3D models from video
視頻中的形變三維模型

作者: Matthew Brand, Mitsubishi Electric Research Laboratories

核心內容: 非剛性運動 3D 結構 和 2D 光流被認爲是張量分解領域的問題。通過嘈雜仿射變換方法,我們可以將這兩者問題變爲組合非剛性結構強度問題,進而使用結構化矩陣分解方法進行解決。然而,圖像噪聲及數據缺陷將導致該因式分解法的前提條件無法成立。即便如此,我們依然可以通過等級約束、範數約束以及強度值來解決這兩個問題,進而產生針對不確定性 SVD、不確定性分解、非剛性因子分解以及子空間光流的全新解決方案。最終獲得的集成算法可以跟蹤以及進行 3D 重建具有細小紋理的非剛性表面,比如具有平滑部分的面部。通過結合低分辨率低紋理的「視頻發現」,這些方法可以產生良好的跟蹤與 3D 重建結果。


2000(1篇)

Real-Time Tracking of Non-Rigid Objects using Mean Shift
運用均值漂移實現對非剛性物體的實時追蹤

作者: Dorin Comaniciu, Siemens Corporate Research;Visvanathan Ramesh, Siemens Corporate Research;
Peter Meer, Rutgers University

核心內容: 論文提出一種可以從移動攝像機實時追蹤非剛性物體的全新方法。中央計算模塊將基於均值漂移以及當前幀中的目標可能位置進行運算。目標模型(顏色分佈)與目標候選者之間的差異由 Bhattacharyya 係數進行表示。該方法的理論分析表明,它與貝葉斯框架息息相關,同時提供了實用、快速且有效的解決方案。針對多個圖像序列的演示結果,展示了該方法跟蹤並處理實時部分遮擋、顯着雜波以及目標比例變化的能力。


2000~2019年 CVPR best paper 合集下載

提取碼: ila1


本文爲極市原創文章,轉載請註明作者和來源


推薦閱讀:
1998 ~2017 年曆屆 ICCV 最佳論文彙總
1996 ~2018 年曆屆 AAAI 最佳論文彙總

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章