深度視覺盛宴——CVPR 2016


頂級視覺盛會



參展單位詳見博文2016CVPR參展商和贊助商名單

計算機視覺和模式識別領域頂級會議CVPR 2016於六月末在拉斯維加斯舉行。

CVPR全稱爲International Conference on Computer Vision and Pattern Recognition,計算機視覺及模式識別大會。涵蓋的問題包括但不限於:物體識別與檢測、圖像高級語義理解、人臉、優化方法、Correspondences求解、相機定位及三維地圖構建(SLAM)。CVPR是計算機視覺的最大的年度聚會,今年收到投稿2,145份,接受論文643篇,接收率29.9%。與會人數也是驚人,達3,600人。去年是2800多人,今年有3609人,接近了30%的增長,這與計算機視覺在學術界和工業界得到越來越多的關注不無關係。毫無疑問,在這643篇接收文章中,深度學習再次佔據了大半壁江山。

與往屆不同的是,今年的CVPR增加了一種新的論文展現形式——Spotlights,有123篇優秀文章(Spotlights)擁有機會進行4分鐘在聽衆面前宣講他們的工作。在會議的Poster部分,所有文章的作者也可在自己的展板前與其他與會者進行面對面的交流。

今年的CVPR還有許多精彩的創新之處:

CVPR 2016展示了計算機視覺和深度學習領域最新的成就,包括像熱門的大型視頻理解和新興的視覺問答領域問題。

有史以來第一次,CVPR 2016舉辦了一個100個公司參加的工業展。

同樣有史以來第一次,CVPR 2016的組委會成員幾乎全是女性。

仍然有史以來第一次,CVPR 2016選出了每天的亮點,與報告者的互動提問,介紹女性研究者等等,然後每天以簡報的形式推送給大家。

如日中天的深度學習

本次會議張祥雨同學分享的關注點主要在深度學習和圖像識別方面。深度學習作爲眼下最熱門的機器學習框架,其在計算機視覺方面的研究和應用可謂是如日中天。據不完全統計本次會議60%以上的文章均與深度學習有關。在圖像識別,尤其是圖像(視頻)分類、物體檢測、圖像語義分割等領域,深度學習已呈一統天下之勢。即使是在如3D視覺、底層圖像處理等傳統方法相對主流的領域也有不少學者給出了自己的基於深度學習的解決方案。

圖像識別

自從Ross Girshick等人提出基於深度卷積神經網絡的物體檢測方法“RCNN”以來,深度學習憑藉着良好的精度逐漸成爲物體檢測的主流方法。之後的重要工作如“Fast RCNN”和“Faster RCNN”等更是將物體檢查的準確度和速度均提升了一個檔次。本次會議有5篇物體檢測方面的工作進行了口頭展示。其中,Abhinav Shrivastava等人在訓練檢測網絡時通過添加困難樣本,以一種非常簡潔的方式取得了可觀的性能提升,令人印象深刻;而在另一項工作“YOLO”(You Only Look Once: Unified, Real-Time Object Detection)中,演講者Joseph Redmon通過幽默的語言和生動的現場展示,介紹了他們是如何設計算法框架以同時滿足高精度和高實時性的要求。值得一提的是,Ross Girshick本人在這兩個工作中均有貢獻,足見其在物體檢測領域“超級大牛”的地位。

作爲圖像識別問題的重要分支,圖像語義分割(Semantic Segmentation)同樣吸引了一批頂尖科學家投入研究。張祥雨所在的微軟亞洲研究院視覺計算組通過對圖像分割問題中的多個目標函數進行級聯式的聯合訓練,在MS COCO等數據集上取得了明顯的性能提升。該項工作是去年ImageNet & MS COCO比賽中微軟冠軍團隊技術體系中的重要一環。此外,視覺計算組的另一篇有關圖像語義分割的文章Scribble Sup: Scribble-Supervised Convolutional Networks for Semantic Segmentation也在會議上做了口頭展示。

視覺問答(VQA)

視覺問答是近年來迅速興起的研究課題。該問題的一般提法爲:給定一張圖片,以及一句使用自然語言描述的和圖像相關的問題,視覺問答系統需要對該問題做出回答。可見,該課題同時涉及了圖像識別和自然語言理解,更具挑戰。而近年來深度神經網絡在圖像識別和自然語言處理的迅猛發展,爲解決視覺問答問題提供了重要的思路。本次會議上視覺問答相關的文章幾乎都採用了深度學習的方法。

值得一提的是,今年年初的視覺問答挑戰賽(VQA Challenge)的比賽結果也在本次會議的視覺問答專題會議上公佈。Yuandong Tian (田淵棟)等一批著名科學家被邀請在討論會上發言。本次比賽設有4個挑戰項目,共有20多支隊伍參加角逐。張祥雨表示:“頗感榮幸的是,本次比賽所有項目的前三名均使用了我們發表的152層深度殘差網絡作爲圖像特徵的提取模型,再次表明了我們的方法在不同的應用場景下均具有較強的推廣能力。”

“找到需要去做的東西去做纔是最重要的”,此話讓人深有感觸。計算機視覺經過磕磕碰碰幾十年的發展來似乎終於找到了靠譜的落地方式:無人車。主題演講中Ammon將自動駕駛中的技術分爲三個支柱,分別是傳感技術(Sensing),地圖繪製(mapping)和駕駛策略(Driving Policy)(Planning)。Ammon用一些例子說明了三個問題的發展狀況,以及討論了爲何這三個問題必須同時發展並作爲整體來考慮,以免一個問題對另一個問題產生分歧。在現在全世界一窩蜂想搞無人車的大環境下,AmmonShashua教授的演講爲想了解和想進入這個領域的同學們提供了一個很好的全局觀,讓大家理清了需要解決的問題,以及對這些問題的感性認識。

CVPR 2015曾有個專題研討會:計算機視覺中的女性研究者(WiCV2015: Women in Computer Vision)。而今年CVPR 2016的組委會幾乎全是女性,通過邀請在這個行業中的女性榜樣研究員提高女性研究者的影響力和被關注程度。同時每天大會的簡報還特意挑選出一兩位女性研究者來分享她們關於研究興趣、職場規劃的寶貴經驗,也給予年輕的女性研究者更多的機會去展示她們的成果。

CVPR論文是如何寫成的

今年的最佳學生論文毫不意外也是關於深度學習的文章,來自康奈爾團隊的關於Spatio-Temporal Graph上的深度學習工作:Structural-RNN:Deep Learning on Spatio-Temporal Graphs, Ashesh Jain, Amir R,Zamir, Silvio Savarese, Ashutosh Saxena。最佳論文第二名(Honorable Mention) 則頒給了慕尼黑科大(TUM)團隊關於優化理論的文章:Sublabel-Accurate Relaxation of Nonconvex Energies, Thomas Möllenhoff, Emanuel Laude, Michael Moeller, Jan Lellmann, Daniel Cremers。 可見組委會在瘋狂的深度學習熱潮中依然保持着對傳統能量優化問題的重視。其中一個重要原因可能是,儘管深度神經網絡在中高層視覺中已所向披靡,但其在底層視覺的一些問題中仍未超越傳統方法,例如去噪、光流、以及立體視覺匹配。

該論文中TUM Cremers團隊提出的優化方法正是針對低層視覺問題中的經典formulation:逐像素的非凸數據項+TV正則化約束。該方法的中心思想是對每一個像素而言,用一個高維向量(Lifted Representation)來表示原問題中要優化的標量(或低維)自變量,將原問題映射到一個更高維空間中的一個等價問題,從而可以對非凸能量項進行更好的凸近似,獲得更高的解的質量。近似後得到的凸能量可以並行優化,且易於實現,可以高效地找到近似問題的全局最優解。論文重點討論了該方法在立體視覺匹配中的應用,效果大大超過了傳統的TV+非凸數據項的解法。

張弛同學解釋:“立體視覺匹配是我的研究重點之一,該問題的任務是從雙目相機所獲取的左眼圖像和右眼圖像中恢復出逐像素點的深度。由於雙目相機中的平行極線約束,該問題又轉化爲左右眼圖之間的逐像素匹配問題。”

受限於訓練數據的數量,同時也因爲可能未找到該問題下的最佳網絡結構,深度學習中的端到端的訓練方法在立體視覺匹配上的表現依然未超過傳統方法。這裏的端到端的訓練方法指的是:直接對輸入圖片進行一些列卷積以及一些列反捲積來回歸出輸出圖像。由於獲得雙目圖像的ground truth深度數據本身就是一個難題,目前立體視覺匹配兩個主要benchmark Middlebury和KITTI上也分別只有數十對和數百對的訓練數據,對訓練端到端的深度估計網絡還遠遠不夠。

爲了解決這個難題,TUMCremers團隊在另一篇論文中討論瞭如何生成足夠且靠譜的訓練數據用以訓練深度估計網絡:A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation, Nikolaus Mayer, Eddy Ilg, Philip Häusser, Philipp Fischer,Daniel Cremers, Alexey Dosovitskiy, Thomas Brox。該論文使用開源的3D Creation Suite Blender渲染出一系列帶有複雜運動模式的物體的雙目圖片,由於渲染過程是從3D到2D且物體及場景的三維模型已知,生成ground truth的深度圖變得非常容易。生成的訓練數據集中包含35,000對訓練樣本,訓練得到的深度估計網絡在KITTI上的排名也比較靠前,但離第一名傳統方法Displet仍有相當一段距離。這裏值得一提的是,雖然該網絡使用人工合成的數據集進行訓練,它在真實數據集上似乎具有良好的泛化能力。隨着訓練數據的不斷完善,深度網絡在幾個重要的低層視覺問題上是否會超越以及如何超越傳統方法,又或者能給傳統解法帶來什麼樣的啓發,我們拭目以待。


==============文章來源=================
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章