計算機視覺的定義及其應用

計算機視覺(Computer Vision, CV)是一門研究如何讓計算機達到人類那樣“看”的學科。更準確點說,它是利用攝像機和電腦代替人眼使得計算機擁有類似於人類的那種對目標進行分割、分類、識別、跟蹤、判別決策的功能。作爲一個新興學科,計算機視覺是通過對相關的理論和技術進行研究,從而試圖建立從圖像或多維數據中獲取“信息”的人工智能系統。

    它是一門綜合性的科學技術,主要包括計算機科學與工程、信號處理、物理學、應用數學與統計、神經生理學和認知科學等。

    目前,計算機視覺技術已經應用在製造業、工業檢驗、文檔分析、醫療診斷、軍事目標跟蹤、自主導航等系統當中。

下面,讓我們舉例來更直觀的瞭解計算機視覺所包含的範圍;

(1)判斷當前圖片中車輛的個數、顏色、類型、外觀;

(2)根據圖片判斷當前的零件是否有缺陷;

(3)對圖片中的數字和字符進行提取和分類判別;

(4)判斷當前圖片中是否有人臉;

(5)對當前圖片中的人臉與黑名單中的人臉進行比對驗證;

(6)跟蹤當前視頻序列中的車輛;

(7)判斷圖片中人臉的表情;

(8)根據病人的CT圖片判斷該病人的病情;

(9)根據攝像機成像跟蹤導彈當前的運動軌跡;

(10)根據車輛前方的攝像頭成像來判斷前方車輛與當前車輛的距離,從而決定是否需要提速或檢測;

(11)判斷當前圖片是電腦還是DVD;

。。。


    上面的例子對於人類了來說是非常簡單的,不過,對於計算機來講,卻異常複雜。原因在於人類經過幾年甚至十多幾十年的學習、認識和了解,已經對現實世界中存在的各種事物有了一個準確完善的分類歸納能力。而計算機則因爲沒有經過一個長久的、完整的學習和理解過程而顯得比人類笨拙許多。試想一下,一個剛出生的嬰兒,除了具備吃奶這樣一個哺乳動物天生就有的能力外,他能夠分清不同的人麼?他能夠分清不同的顏色、不同的形狀、不同的外觀、不同的表情麼?很顯然,不能!而一個三歲的小孩,應該可以基本分清常見的一些親人了,但是,他卻很難分清哪個是電腦哪個是DVD那個是Xbox360;另外,對於一個不具備醫學知識的成年人來說,即使給他一張CT圖片,他也很難判斷這個CT圖片的來判斷是患病還是健康。究其原因,跟剛纔提到的三歲小孩一樣,都沒有經過一個完整的、系統的、長久的、專業的學習訓練過程。同樣的道理,讓計算機來達到人類所具備的這些能力,也需要一個完善的學習過程。如果完全不對計算機進行訓練,那麼它就跟剛出生的嬰兒沒什麼區別,什麼也不會。如果對他進行一些不完善的學習,那麼它的某些視覺判斷能力估計也就跟三歲小孩差不多。顯然,如果想要讓計算機對所“看見”的事物具有同正常成年人相接近的理解能力,就需要大量的樣本來對計算機進行完善的、系統的學習和訓練。


    比如,讓計算機來判斷當前物體的顏色。那麼,就需要有一種手段使得計算機能夠對各種顏色進行區分。而爲了達到這樣一個目的,計算機需要依次完成以下步驟:

(1)獲取到相機捕獲的圖片;

(2)對需要進行顏色判別的物體進行分割;

(3)對物體進行特徵提取;例如,RGB的均值是多少,方差值是多少,HSV的均值是多少,方差是多少,等等。。。

(4)對所提取的特徵進行選擇;比如,在理想條件下對蘋果的顏色進行分類判別,可以用RGB均值;而在實際應用對人臉的膚色進行判斷可能要用到HSV顏色空間等。

(5)針對大量的訓練樣本進行分類器設計與訓練;

(6)針對實際的測試圖片,在提取特徵之後,將特徵輸入到分類器當中進行分類判別;

不難發現,其實計算機處理事物的邏輯順序和人臉處理事物的邏輯順序是一樣的。只不過,由於人類已經經過了長年累月的學習,所以可以做到“不假思索”的對所看到的事物作出準確的理解和判斷。而計算機在處理的過程當中,由於傳感器靈敏度不高、成像質量不好、對圖片不能有效的去處噪聲、不能準確的提取事物的特徵、不能準確的對事物作出分類歸納,所以往往造成了計算機的視覺能力比人類低下等情況的發生。值得提醒的是,由於計算機擁有人類所無法比擬的一些特點,例如,沒有疲憊感、沒有情緒、處理速度快等,所以,人們還是希望在很多場合能夠代替人類來參與一些諸如監控火災、統計車流量、識別車牌等繁瑣重複性的社會活動。

而如今,隨着計算機視覺技術的不斷髮展,越來越多的新產品,越來越多的全新的用戶體驗方式正在強烈的衝擊着人們傳統的生活方式。下面,就讓我們舉幾個典型的例子來說明其中用到計算機視覺技術的一些產品:

(1)最近微軟公司特別火爆的應用於Xbox360上的kinect,這其中包括了人臉檢測、人臉識別與跟蹤、動作跟蹤、表情判斷、動作識別與分類等計算機視覺領域的前沿技術;

(2)Google公司專門爲android開發的免費軟件goggles,它的功能簡單點說,就是利用手機拍照得到的圖片進行檢索,專業術語叫做基於內容的圖片檢索(Content Based Image Retrieval, CBIR)如今仍然是計算機視覺領域的一個熱門分支;

(3)Facebook公司的人臉識別分類軟件;目前人臉識別在計算機視覺領域已經從事了近半個世紀的理論研究;

(4)2006年美國熱播劇集《prison break》中男主角Micro Scofield 被FBI特工用市區監控攝像頭進行實時跟蹤的畫面,這裏用到的視頻跟蹤技術並不是科幻,而是計算機視覺領域真實存在的一個熱門研究領域;

(5)Google的無人駕駛汽車技術;該技術運用了各種攝像頭、激光設備、雷達傳感器等,並根據攝像頭捕獲到圖片及雷達和激光設備相互配合來感知車輛當前的速度,前方的交通標識、車道識別、判斷周圍行人與車輛的距離等信息,並以此來做出加速、減速、停車、左轉、右轉等判斷,從而控制汽車實現真正的“自駕遊”。需要提醒的是,除了google,大衆和intel也在從事無人汽車駕駛技術的研究工作。

(6)騰訊QQ實驗室最近發佈的QQ手勢達人for PPT,利用攝像頭捕獲手勢的圖片,並對簡單的手勢進行分類判別,從而實現翻PPT的目的;

(7)Google street view(google街景)和微軟的street slide,都是一種用來觀看城市街道景色的軟件,尤其是street slide,利用普通相機拍攝的二維圖片進行拼接,從而生成了全景圖,使得用戶可以在街道當中漫遊。相信研究計算機視覺的人應該不會對圖像拼接太陌生;

 

本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/carson2005/archive/2011/04/16/6327624.aspx

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章