視覺計算理論簡介【轉】

一:視覺計算理論與算法研究( 由中國科學院自動化研究所馬頌德等完成)

    "視覺計算理論與算法研究"的目標主要是研究計算機視覺,以使計算機具有通過二維圖像感知三維環境信息的能力,包括感知、描述、理解和識別。計算機視覺屬信息科學領域,它的研究成果對探索人類的認知過程與智能的本質具有十分重要的理論意義,也將爲計算機與機器人開闢全新的應用前景。視覺計算理論與算法是模式識別國家重點實驗室自1987年成立以來的主要研究方向。10多年來,項目組依託於實驗室良好的科研環境,對視覺計算理論與算法進行了系統的研究,在計算理論框架、早期視覺處理、攝像機定標、三維結構重建、視頻與醫學圖像理解等方向取得了一系列創新成果。
    1.新的計算理論框架,在計算理論層次上引進了視覺系統與視覺環境和模型知識的交互作用,有效地解除了視覺信息約束中的非線性問題,大大降低了問題的計算複雜性,提高了計算機視覺系統的魯棒性。從該計算理論出發,在國際上較早地提出了主動視覺系統的攝像機線性定標。
     2.新的計算理論框架,在計算理論層次上引進了局部信息與整體信息的交互作用,有效地提高了視覺信息處理的抗噪聲能力,從該計算理論出發,在國際上首次提出基於圖象整體幾何信息的物體三維重建算法、運動參數估計算法、紋理圖像分析與合成算法等;
     3.以新的計算理論框架爲指導,深入研究了視覺計算中的一些基礎性問題(如圖像分割、特徵分析與提取、相似性度量、攝像機標定等),提出了有重要創新意義的觀點與算法,糾正和澄清了學術界的一些錯誤或不準確的認識和觀點; 
     4.以新的計算理論框架爲指導,深入研究了圖像視頻信息的檢索、醫學圖像分析和動態序列圖像語義理解等幾個有重要應用價值的視覺計算問題,提出了基於時空流的視頻分析、醫學圖像分割、三維醫學圖像匹配以及物體運動行爲理解與描述等一系列新的算法。
與已有的計算理論與算法比較,該項目在視覺計算理論上系統地考慮了各層次間的相互作用以及視覺系統與視覺環境的充分交互,吸取了交叉學科的成果,既更接近近年來認知心理學的實驗證據,也給出了系統的計算模型與方法。

視覺計算理論簡介【轉】
視覺計算理論簡介【轉】 視覺計算理論簡介【轉】

二: 視覺計算理論(最新模式識別之一)

       從七十年代以來,隨着認知心理學自身的發展,認知心理學關於模式識別的研究在取向上出現了某些重要的變化。一些認知心理學家繼續在物理符號系統假設的基礎上進行研究,探討計算機和人的識別模式的特點;而另一些認知心理學家則轉向用神經網絡的思想來研究識別模式的問題。下面介紹的一些模型是近十多年來有重要影響的理論模型。

  視覺計算理論(computational theory of vision)是在20世紀70年代由馬爾(David Marr)提出的。1982發表代表作《視覺計算理論》。

  馬爾認爲,視覺就是要對外部世界的圖像(iamge)構成有效的符號描述,它的核心問題是要從圖像的結構推導出外部世界的結構。視覺從圖像開始,經過一系列的處理和轉換,最後達到對外部現實世界的認識。


三個重要概念:

表徵(representation):指能把某些客體或幾類信息表達清楚的一種形式化系統,以及說明該系統如何行使其職能的若干規則。使用某一表徵描述某一實體所得的結果,就是該實體在這種表徵下的一個描述。

處理(process):是指某種操作,它促使事物的轉換。視覺從接收圖像到認識一個在空間內排列的、完整的物體,需要經過一系列的表徵階段。從一種表徵轉換爲另一種表徵,必須藉助於某些處理過程。

零交叉(zero crossing)代表明暗度的不連續變化或突然變化,是形成物體輪廓的基礎。對零交叉的檢測就是視覺系統對二維表面輪廓或邊界的檢測。

人和機器的最終目的:瞭解一個場景或一個圖像的意義。

馬爾把視覺圖像的形成劃分爲三個階段。階段如下:

⑴二維基素圖(2-D sketch):視覺過程的第一階段,由輸入圖像而獲得基素圖。視覺的這一階段也稱爲早期視覺。所謂基素圖主要指圖像中強度變化劇烈處的位置及其幾何分佈和組織結構,其中用到的基元包括斑點、端點、邊緣片斷、有效線段、線段組、曲線組織、邊界等。這些基元都是在檢測零交叉的基礎上產生的。

這一階段的目的在於把原始二維圖像中的重要信息更清楚地表示出來。

⑵ 2.5維要素圖:視覺過程的第二階段,通過符號處理,將線條、點和斑點以不同的方式組織起來而獲得2.5維圖。視覺過程的這一階段也稱爲中期視覺。所謂2.5維圖指的是在以觀察者爲中心的座標系中,可見表面的法線方向、大致的深度以及它們的不連續輪廓等,其中用到的基元包括可見表面上各點的法線方向、和各點離觀察者的距離(深度)、深度上的不連續點、表面法線方向上的不連續點等等。由於2.5維圖中包含了深度的信息,因而比二維要多,但還不是真正的三維表示,所以得名2.5維圖。

視覺的這一階段,按馬爾的理論,是由一系列相對獨立的處理模塊組成的。這些處理模塊包括:體現、運動、由表面明暗恢復形狀、由表面輪廓線恢復形狀、由表面紋理恢復形狀等。它的作用是揭示一個圖像的表面特徵。馬爾聲稱,早期視覺加工的目標就是要建立一個2.5維的要素圖,這是把一個表面解釋爲一個特定的物體或一組物體之前的最後一步。

⑶三維模型表徵(3-D model representation):視覺過程的第三階段,由輸入圖像、基素圖、2.5維圖而獲得物體的三維表示。視覺過程的這一階段,也稱爲後期視覺。所謂物體的三維表示指的是在以物體爲中心的座標系中,用含有體積基元(即表示形狀所佔體積的基元)和麪積基元的模塊化分層次表象,描述形狀和形狀的空間組織形式,其表徵包括容積、大小和形狀。

當三維模型表徵建立起來時,其最終結果是對我們能夠區別的物體的一種獨特的描述。


評論:

⑴馬爾的視覺理論把視覺研究從描述水平提高到數理科學的嚴密水平,因而它一出現就深受神經科學家、人工智能專家和認知心理學家的推崇。

⑵批評:馬爾對視覺的解釋主要集中在視覺加工的早期階段;除要素圖以外,他設想的各種表徵還沒有得到神經生理學的證明。他把知識的作用限制在視覺加工的晚期階段,也引起一些人的懷疑。還有人認爲,知覺開始於大範圍拓撲性質的提取,而不是對個別特徵的分析。人的視覺系統的功能具有拓撲性,它注重整體性質而忽略局部性質,因而對視覺的計算性質提出了尖銳的挑戰。

三:視覺計算理論的修正
       戴維.馬爾的視覺計算理論,我們稱其爲半截子視覺理論.他關於視覺是一個信息處理過程的認識是正確的.我們的觀點可以看作是這一認識的發展,即視覺是接收、處理、再現信息的過程。但在這種大原則正確的基礎之上,馬爾卻犯了一個致命的錯誤,將視覺信息處理過程的起點定位在“視網膜像”上。而“視網膜像”是傳統視覺認識中的一個錯誤。這一作法導致視覺計算理論需要解決的第一個問題:如何從二維信息(圖像)中再現出三維信息?就是一個不存在答案的虛假問題。 
       該問題的提出是建立在傳統視覺認識(生理光學)基礎之上的,即眼的屈光成像在先,視覺信息處理過程在後。從信息的角度分析:“視網膜像”的形成是一個三維信息轉換成二維信息過程,而視覺信息處理過程是二維信息再轉換回三維信息的過程。從三維信息轉換成二維信息是一個可以實現的過程,但轉換的結果是二維信息中已經沒有了三維信息中的部分信息(信息失真),而已不存在的信息不可能再現出來,所以二維信息無法再轉換回三維信息。因此二維信息再現三維信息是一個不可能實現的過程。這樣該問題即變爲;二維信息不能轉換成三維信息,但視覺生理中怎麼才能實現這一轉換過程呢?這隻能是一條不可能尋找到答案的失敗之路。 
       視覺計算理論可以修正。這種修正只需要提出一個新的問題即可:眼外的三維信息是如何轉換成視覺中的三維信息的?解決這一問題的關健是拋棄傳統視覺認識中的眼屈光成像的觀念,建立眼—腦視覺通路是一個完整信息處理過程的新觀念。如此視覺信息處理過程的起點的定位應在眼—腦視覺結構的最前端-----角膜。這樣視覺信息處理過程開始接收到的便是自然光傳遞的三維信息,最終在視皮層中的再現信息(視覺計算理論中的“表像”)仍是三維的。而舊認識中的瓶頸二維的“視網膜像”,便可被新的三維的可見光信號所取代。這是一個存在答案的問題,這是一個在視覺生理中可以實現的過程。 
      視覺計算理論必須修正,否則再多的算法也只能是與視覺生理毫無關係的數學遊戲,是不可能在物理層次上實現的。

來自:

http://www.most.gov.cn/ztzl/gjkxjsjldh/jldh2004/zr/Z-107-2-03.htm

http://hi.baidu.com/baodao/blog/item/ed5cf9f263494e10b07ec518.html

http://gnohiah.bokee.com/3310768.html


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章