【CS231n_2017】1-Introduction to CNN for Visual Recognition

  本專欄根據斯坦福大學2017年公開課CS231n的視頻教程整理學習資料,做學習筆記。

  首先簡單介紹CS231n,又稱Convolutional Neural Networks for Visual Recognition。

  計算機視覺在我們的社會中無處不在,廣泛應用於搜索、圖像理解、應用程序、測繪、醫藥、無人駕駛飛機和自動駕駛汽車等領域。許多應用的核心是視覺識別任務,如圖像分類,定位和檢測。神經網絡(又名“深度學習”)方法的最新發展極大地提高了這些最先進的視覺識別系統的性能。本課程深入探討深度學習架構的細節,重點是學習端到端模型,尤其是在圖像分類方向。

  在CS231n課程中,學生將學習實施、訓練和調試自己的神經網絡,並獲得對計算機視覺前沿研究的詳細瞭解。最後的任務將涉及培訓一個數百萬參數卷積神經網絡,並將其應用於最大的圖像分類數據集(ImageNet)。我們將着重教授如何設置圖像識別問題、學習算法(例如反向傳播)、用於訓練和微調網絡的實際工程技巧,以及引導學生完成實踐作業和最終課程項目。本課程的大部分背景和材料都將從中提煉出來實際的工程技巧,訓練和微調網絡,引導學生完成實踐任務和最終的課程項目。

  主講教師:Fei-Fei Li
  (美國斯坦福大學計算機科學系副教授,2015年12月1日,入選2015年“全球百大思想者”)

  推薦觀看李飛飛的TED講座:如何教計算機理解圖片。視頻內附有多種字幕,包括中英文。
https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-737258

  當前計算機視覺可以識別一些簡單的物體,類似於一個三歲大的小孩,能辯認出簡單事物。如果把孩子的眼睛看作是生物照相機,那他們每200毫秒就拍一張照。—這是眼球轉動一次的平均時間。所以到3歲大的時候,一個孩子已經看過了上億張的真實世界照片。於是發起了 ImageNet 項目,一個含有1500萬張照片的數據庫, 涵蓋了22000種物品。

  目前爲止, 我們已經教會計算機“看”對象,或者甚至基於圖片,告訴我們一個簡單的故事。但圖片裏還有更多信息是計算機未能理解的。將一個孩子從出生培養到3歲是很辛苦的。而真正的挑戰是從3歲到13歲的過程中, 而且遠遠不止於此。

  最終,我們希望能教會機器像我們一樣看見事物:識別物品、辨別不同的人、 推斷物體的立體形狀、理解事物的關聯、 人的情緒、動作和意圖。

  這裏附上CS231n課程的視頻鏈接:
https://www.youtube.com/playlist?list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv

  (更新 2018/3/17: 由於期末及寒假,視頻看得拖沓,基本2018年3月才又繼續,到今天總算是匆匆掃完一遍了。雖然沒有繼續做筆記,但還是來此打卡,以示學習任務已堅持完成,共勉!)


A brief history

  計算機視覺應用於很多鄰域,包括生物、物理、心理學、工程、數學、計算機科學。

  大約543,000,000年前,生物進化大爆炸,漸漸地,生物開始有了眼睛形成了視覺系統。

  1963年,Larry Roberts,提出了Block world,檢測簡單的塊狀結構,並實現重建。

  1966年,著名的MIT研究“THE SUMMER VISION PROJECT”,目的是”an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。

  二十世紀七十年代,David Marr 提出了3D模型的重構方法。

  1973年,Fischler and Elschlager提出了 “Pictorial Structure”,1979年,Brooks & Binford提出了“Generalized Cylinder”,旨在通過簡單的幾何結構繪製真實世界的複雜物體而非純粹的幾何物體。

  1987年,David Lowe 提出了對簡單結構重構或識別的思想,他通過線條邊緣來重構剃鬚刀的幾何模型,

  1997年,Shi & Malik 提出了“Normalized Cut”,將圖像像素以羣組的形式劃分爲各個有意義的區域,實現圖像分割。比如在圖一中,在不知道檢測事物是人的情況下,將人所在區域的像素從背景中分隔提取出來。

  2001年,Face Detection, Viola & Jones提出了“人臉檢測”

  1999年,David Lowe提出了“SIFT” & Object Recognition。可能因爲相機角度、背景、視角、光照、自身變化等問題,相同物體在不同圖像中有所差異。爲了解決匹配問題,引出了SIFT特徵的方法。

  2006年,Lazebnik, Schmid & Ponce 提出了“Spatial Pyramid Matching”,通過特徵來提供線索,確定是什麼場景,比如自然景觀、廚房、高速公路等。

  在此之後,陸續提出了HoG(Histogram of Gradients),Deformable Part Model 的識別方法。


CS231n overview

  CS231n課程關注的是圖像分類,這是視覺識別中最重要的問題之一。有很多的視覺識別問題都與圖像分類緊密相關,比如物體檢測、看圖說話等。

  CNN即卷積神經網絡Convolutional Neural Networks,它是什麼時候提出的呢?早在1998年,CNN就已提出,當時是用於手寫字符的自動識別。

  真正讓CNN火起來的,是2012年”大規模視覺識別挑戰”即“Large Scale Visual Recognition Challenge”,CNN一戰成名,一鳴驚人。CNN在ImageNet競賽中的表現直接奠定了它的重要地位,兩個第一,正確率超出第二近10%,確實讓人大跌眼鏡。

  計算機視覺的要求,遠不止於目標識別。

  我們希望計算機視覺能剖析隱藏在圖像中的信息,找出事物間的相互聯繫,分析人的神情動作等。

  正如Fei-Fei Li在TED講座中所提到的,“一點一點地, 我們正在賦予機器以視力。首先,我們教它們去“看”。然後,它們反過來也幫助我們, 讓我們看得更清楚。這是第一次,人類的眼睛不再獨自地思考和探索我們的世界。我們將不只是“使用”機器的智力,我們還要以一種從未想象過的方式,與它們“合作”。我所追求的是:賦予計算機視覺智能,併爲Leo(Fei-Fei Li兒子)和這個世界, 創造出更美好的未來。


發佈了99 篇原創文章 · 獲贊 210 · 訪問量 40萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章