初探計算機視覺的三個源頭、兼談人工智能|正本清源

初探計算機視覺的三個源頭、兼談人工智能|正本清源

談話人 楊志宏 視覺求索公衆號編輯
朱鬆純 加州大學洛杉磯分校UCLA統計學和計算機科學教授 Song-Chun Zhu     
www.stat.ucla.edu/~sczhu
時間 2016年10月
源地址爲:https://mp.weixin.qq.com/s/MOOZeVzTjZcRZlX7cuSZmw

: 朱教授,你在計算機視覺領域耕耘20餘年,獲得很多獎項, 是很資深的研究人員。近年來你又涉足認知科學、機器人和人工智能。受 《視覺求索公衆號》編輯部委託,我想與你探討一下計算機視覺的起源,這個學科是什麼時候創建的, 有哪些創始和代表人物。兼談一下目前熱門的人工智能。

: 好, 我們首先談一下爲什麼需要討論這個問題。 然後, 再來探討一下計算機視覺的三個重要人物David Marr, King-Sun Fu, Ulf Grenander以及他們的學術思想。我認爲他們是這個領域的主要創始人、或者叫有重要貢獻的奠基人物。

第一節: 爲什麼要追溯計算機視覺的源頭, 這有什麼現實意義?

中國有句很有名的話:“一個民族如果忘記了歷史,她也註定將失去未來。” 我認爲這句話對一個學科來講,同樣發人深省。我們先來看看現實的狀況吧。

首先,假設你當前是一個剛剛進入計算機視覺領域的研究生,很快你會有一種錯覺,覺得這個領域好像就是5年前誕生的。 跟蹤最新發表的視覺的論文,很少有文章能夠引用到5年之前的文獻,大部分文獻只是2-3年前的,甚至是1年之內的。現在的信息交換比較快,大家都在比一些 Benchmarks,把結果掛到arXiv 網上發佈。 很少有一些認真的討論追溯到10年前,20年前, 或30年前的一些論文,提及當時的一些思想和框架性的東西。現在大家都用同樣的方法,只是比拼,你昨天是18.3%的記錄(錯誤率),我今天搞到17.9%了。大家都相當短視,那麼研究生畢業以後變成了博士,可能也會帶學生做研究,他只知道這幾年的歷史和流行的方法的話,怎麼可能去傳承這個學科,讓其長期健康發展呢?特別是等當前這一波方法退潮之後,這批人就慢慢失去了根基和源創力。這是一個客觀的現象。

其次,還有一個現象是,隨着視覺與機器學習結合,再混合到人工智能的這麼一個社會關注度很高的領域去以後,目前各種工業界,資本、投資界都往這裏面來炒作。所以,你可以在互聯網上看到各種推送的文字,什麼這個大師,那個什麼牛人、達人說得有聲有色,一大堆封號。中國是有出“大師”的肥沃的土壤的,特別是在這個萬衆創新、浮躁的年代。 這些文字在混淆公衆的視聽。也有的是一些中國的研究人員、研究生, 半懂不懂,寫出來一些, 某某梳理機器學習、神經網絡和人工智能的歷史大事。說得神乎其神。我的大學同學把這種帖子轉發給我,讓我擔憂。

:這大多是以學術的名義寫的軟文,看起來像學術文章,實際上就是帶廣告性質的,一般都是說創投、創業公司裏的人,帶着資本的目的,帶商業推廣性質的。

: 我甚至不排除有些教授,比如與硅谷結合很緊密的、在IT公司或者風投公司兼職的,有意識地參與、引領這種炒作。

這對我們的年輕學生其實是很致命的,因爲他們不瞭解這背後的動機, 缺乏免疫力。而且現在年輕人和公衆都依賴短平快的社交媒體,很少去讀專業文獻。當公衆的思想被這些文字佔領了,得出錯誤的社會性的共識,變成了 false common sense, 對整個社會, 甚至對學術界,都會產生長久的負面衝擊。

這就形成了新時代的皇帝的新裝。我們需要對這種現象發聲, 做一些嚴肅的探討。所以,正本清源有着重要的現實意義。

*** 第二節:計算機視覺和人工智能、機器學習的關係***

:談到這裏,我想先問一下計算機視覺和人工智能是什麼關係?還有機器學習這三個東西。

:人工智能是在60年代中後期起步的。一直到80年代,翻開它的教科書,就是一些啓發式搜索,研究最多的是下棋, 從國際象棋一直到最近的圍棋,都是比較抽象的表達。棋盤的位置是有限的、下棋的動作也是有限的, 沒有感知和動作執行的不確定性。 所有的問題都變成一個圖搜索的問題,教科書上甚至出現了一個通用圖搜索算法號稱可以解決任何人工智能問題。當時視覺問題還沒引起大家重視。我這裏有一份1966 年7月 的 MIT AI 實驗室的第100號報告(備忘錄memo 100),很短,題目叫做“The Summer Vision Project”。這個備忘錄的基本意思就是暑假的時候找幾個學生構造一個視覺系統。他們當時可能就覺得這個問題基本上是不需要做什麼研究的。所以你就一個暑假,幾個人一起寫個程序,就把它幹掉算了。現在說起來,當然是個笑話。

人的大腦皮層的活動, 大約70%是在處理視覺相關信息。視覺就相當於人腦的大門,其它如聽覺、觸覺、味覺那都是帶寬較窄的通道。視覺相當於八車道的高速, 其它感覺是兩旁的人行道。如果不能處理視覺信息的話,整個人工智能系統是個空架子,只能做符號推理,比如下棋、定理證明, 沒法進入現實世界。所以你剛纔問到的人工智能和計算機視覺的關係,視覺,它相當於說芝麻開門。大門就在這裏面,這個門打不開, 就沒法研究真實世界的人工智能。

到80年代,人工智能, 連帶機器人研究就跌入了低谷, 所謂的冬天。那個時候,很多實驗室都改名字了, 因爲拿不到經費了。 客觀來說,80年代, 一個微型計算機的它的內存只有640K字節,還不到一兆(1MB一百萬字節),我們現在一張圖像,隨便就是幾個兆的大小,它根本無法讀入一張圖像,還談什麼理解呢?等到我做博士論文的時候(1992-1996),我導師把當時哈佛機器人實驗室最好的SUN工作站給我用,也就是32兆字節。我們實驗室花了25萬美元構建了一個圖像採集系統,因爲當時沒有數字照相機。可以這麼說,一直到90年代中期的時候,我們基本上不具備研究視覺這個問題的硬件條件和數據基礎。只能用一些特徵點的對應關係做射影幾何,用一些線條做形狀分析。因爲圖像做不了,所以80年代計算機視覺的研究,很大部分是做幾何。

:90 年代後,就是數字照相機大量生產了。

:在90年代的末期的時候,發生了一個叫做感知器的革命。帶動了大數據和機器學習的蓬勃發展。

:那機器學習與計算機視覺的關係呢?

:計算機視覺是一個domain, 它有很多問題要研究, 就像物理學。 而機器學習基本是一個方法和工具,就像數學和統計學。 這個名詞的興起應該還是最近的事情, 在我看來,是來自於兩股人馬。 80年代人工智能走入低谷後,迎來了人工神經網絡的一個高潮, 所謂的從符號主義到連接主義的過渡。在中國80年代與氣功、人體科學一起走紅,但這基本是曇花一現。到了90年代初, 退潮之後,就開始搞 NIPS這個會議, 引入統計的方法來做。還有一股就是做模式識別的一些工程人員EECS 背景的。 按道理來說, 這個領域應該叫做 統計學習 (Statistical Learning),因爲它的方法都是由概率統計領域拿來的。這些人中的領軍人物很有商業頭腦, 把統計和物理的數理模型, 改名叫做機器, 比如模型(model)就叫機(machine),把一些層次模型(hierarchical model)說成是“網”(net)。這樣,搞出了幾個“機”和“網”之後, 這個領域就有了地盤。另一方面,我的那些做統計的同事們也都老實、圖個清靜,不與他們去爭論, 也大多無力去爭。當然,統計學領域也有不少人蔘與了機器學習的浪潮。簡單說,機器學習中的 “機器”就是統計模型,“學習”就是用數據來擬合模型。 是由做計算機的人搶佔了統計人的理論和方法,然後,應用到視覺、語音語言等 domains。 我在計算機和統計兩個系當教授, 看得一清二楚。 這個問題我以後可以專門討論。

這個機器學習的羣體在2000年之後,加上大量數據的到來,很快就成長了, 商業上取得很大的成功。機器學習和計算機視覺大概有百分之六七十是重合的。順便說一句,2019年我們兩個領域會在一起在洛杉磯開CVPR 和 ICML年會, 我是CVPR19的大會主席。因爲學習搞來搞去,最豐富的數據是在視覺(圖像和視頻)。現在這次機器學習的一些大的動作和工程上的推廣工作,還是從計算機視覺這邊開始的。

:謝謝你講述人工智能,計算機視覺和機器學習的關係。下面我們回到本次訪談的主題。剛纔說了這個感知器革命是90年代以後,出了很多的數據要處理了。那麼爲什麼馬爾(Marr)在70年代末思考的問題,在面對我們當今處理這個數據的時候, 還有意義?就是說馬爾用了什麼方法?什麼思路框架?使它有生命力?

:好,就回到1975-1980年這個時間段。我們今天的主題是想初步探討一下計算機視覺的起源。我們這個領域也沒有一個統一的教科書來談這個事情。我認爲視覺的起源,可以追溯到三個人,David Marr, King-Sun Fu 和Ulf Grenander。這三個人代表三個完全不同的方面,爲計算機視覺這個領域奠定了基礎。

:好, 我們逐個來介紹吧。

*** 第三節:視覺的開創者之一:David Marr 的學術思想***

: David Marr 【1945-1980】,中文音譯爲馬爾, 他奠定了這個領域叫做Computational Vision計算視覺,這包含了兩個領域: 一個就是計算機視覺(Computer Vision),一個是計算神經學(Computational Neuroscience)。他的工作對認知科學(CognitiveScience)也產生了很深遠的影響。

我們計算機視覺CV,第一屆國際會議ICCV 1987年就以David Marr的名字來命名最佳論文獎, 而且一直到2007年之前的20年間, 是CV唯一的獎項和最高的榮譽,兩年一次。認知科學年會 (CogSci)也設有一個 Marr Prize給最佳的學生論文。這三個領域在80-90年代走得很近, 最近十多年交叉越來越少了。就是說,原來都是親戚,表兄弟, 現在很少有人在之間走動了。

Marr 1972年從劍橋大學畢業,博士論文是從理論的角度研究大腦功能,具體來說,是研究的小腦, 主管運動的Cerebellum。1973年受MIT 人工智能實驗室主任Minsky的邀請, 開始是做訪問學者(博士後)。 1977年轉爲教職。 可是, 1978年冬診斷得了急性白血病。1980年轉爲正教授不久就去世了, 時年35歲。他在得知來日無多後,就趕緊整理了一本書,就叫 “Vision:A Computational Investigation into the HumanRepresentation and Processing of Visual Information”, 《視覺:從計算的視角研究人的視覺信息表達與處理》。他去世後由學生和同事修訂,1982年出版。

:“Vision”2010年再版了,再版了以後在亞馬遜仍然是賣得很好。

:它是個經典的東西。我是1989年冬天本科三年級從中科大認知科學實驗室的老師那裏,讀到這本書的中文譯本。因爲缺乏背景知識,我當時基本讀不懂。因爲是中文,每句話都明白,但是一段話就不知道是什麼意思了。在過去的20多年中, 我每隔1-2年都會再翻一翻這本書。後來我和同事花了大約8年時間,將他的一些思路轉化成數理模型,比如primal sketch。

:這個人生故事是可以拍電影的。

:的確。 很多年前我與他的大弟子 Shimon Ullman飯桌上談到這段歷史, 他說當時大家到處找藥,就是救不過來。當年這是一個30多歲正值科學頂峯的、交叉學科的領軍人物。順便說一句, 當年中日友好,1984播放日本電視劇《血疑》, 那是萬人空巷, 感人至深。裏面的大島幸子(三口百惠飾)得的就是同樣的病。

可惜, 目前計算機視覺這個領域,你如果去問學生的話,他們很多人都沒聽說過David Marr。“喔,想起來了,好像有個Marr獎吧”。可是你去問認知科學、神經科學的人,他們基本上對Marr非常的清楚。這也是我所擔心的, 計算機視覺的發展太工程化、功利化了,逐步脫離了科學的範疇。這是短視和危險的。最近又受到機器學習來的衝擊。
我這裏順便說一句, Marr 對我的另外一個間接的影響。他1973年來到MIT, 就租住在JayantShah的房子裏, Shah 與 Minsky很熟, 他當時是研究代數幾何(Algebraic geometry)的。 而我導師Mumford也是研究代數幾何的, 並獲得1974年的菲爾茲獎。他們兩人很熟,後來在Shah的影響下,Mumford轉入計算機視覺, 他們從提取物體邊緣開始 (boundarydetection),也就是產生了著名的 Mumford-Shah 模型,搞圖像處理的應用數學人員基本都是從這個模型開始做。這是後話。關於這段歷史,我們以後可以展開談。

:好, 那麼 Marr的學術貢獻是什麼呢?

:在我看來,David Marr對我們這個學科最主要的貢獻有三條。從而基本上可以說,定義了這個學科的格局。

第一條,就是說在那個時代,60年代開始的時候大家已經很多人研究視覺神經生理學、心理學問題。也有人做一些邊緣檢測的工作。但是,視覺到底要解決哪些問題?是怎麼實現的?大家莫衷一是,談不清楚,那麼David Marr的第一個貢獻就是分出了三個層次。他說, 要解決這個問題,可以把它分成計算(其實應該說成是表達)、算法、和實現三層次。首先,在表達的層次,我們問一下這是個什麼問題呢?如何把它寫成一個數學問題。任務是什麼?輸出是什麼?這是獨立於解決問題的方法的。其次,對這個數學問題去求解時,可以選擇不同的算法, 可以並行或者串行。再次,一個算法如何在硬件上實現,可以用CPU,DSP, 或者神經網絡來實現。 很多觀察到的心理學和神經科學的現象都是跟系統硬件有關的東西,比如說人的一些注意機制,記憶力。這些應該從表達層面剔除。這樣, 視覺就可以從純粹的理論、計算的角度來研究了。我們可以參考心理學和神經科學的結論, 但這不是主要的。 打個比方,要造飛機, 可以參考鳥類的結構, 但關鍵還是建立空氣動力學,才能從根本上解釋這個現象, 並創造各種飛行器, 走得更遠。

:他這麼一說,今天看來好像很自然的可以理解了,但是在當時,可能沒有多少人,是把問題這樣分解的。

:當時分不開。因爲當時站在像神經科學和認知科學角度,是拿一些實驗現象來說事,但是不知道這個現象是在哪一層出現的。

比如神經網絡和目前的深度神經網絡的學習,他們的模型(表達)、算法、和實現的結構三層 是混在一起的。就變成一個特用的計算設備, 算法就是由這個結構來實現的。當它性能不好的時候,到底是因爲表達不對,還是算法不對,還是實現不對? 這個不好分析了,目前的神經網絡,或者是機器學習,深度學習,它的本源存在這個問題。

以前我們審稿的時候,會追問論文貢獻是提出了一個新的模型?還是一個新的算法?在哪一個層級上你有貢獻,必須說得清清楚楚。2012年,我作爲國際計算機視覺和模式識別年會(CVPR)的大會主席, 就發生一個事件。收到神經網絡和機器學習學派的一個領軍人物 LeCun的抱怨信,他的論文報告了很好的實驗結果, 但是審稿的三個人都認爲論文說不清楚到底爲什麼有這個結果, 就拒稿。他一氣之下就說再也不給CVPR投稿了,把審稿意見掛在網上以示抗議。2012 年是個轉折點。

現在呢?隨着深度學習的紅火, 這三層就又混在一塊去了。 一般論文直接就報告結果, 一堆表格、曲線圖。我就是這麼做,然後再這麼做,我在某些個數據集上提高了兩個百分點,那就行了。你審稿人也別問我這個東西里面有什麼貢獻,哪個節點代表是什麼意思,你別問,我也不知道。那算法收斂了嗎?是全局收斂還是一個局部收斂?我也不知道,但是我就提高了兩個百分點。

:或者要用多少數據來訓練材料才能夠呢?

:對,這個也不用管,而且說不清。反正我這個數據集就提高是吧?所以從這個角度來講,它就很難是一個科學的方法。可以認爲它就是一個工程或者是一個經驗的,有點像中醫。那麼要往前再發展的時候,你必須要理清楚這三層的事情。

:對。

:那麼他第二個貢獻的話,是理清視覺到底要計算什麼。Marr提出了一個系列的表達,從primal sketch(首要簡約圖), 到2 ½ D sketch(深度簡約圖), 到3D sketch。 這裏面還包含了紋理、立體視覺、運動分析、表面形狀、等等。比如說我要估計一個物體的深度和形狀,我就估計它的光照,和物理材料特性;還有,三維幾何形狀怎麼去表達? 他試圖去建立一個完整的體系。

現在的視覺就基本上被很多人錯誤地看成一個分類問題,你給我一張圖像,我說這個圖像裏有一隻狗或者沒有狗,狗在哪兒都不知道。頭在哪?腳在哪?不知道。Marr框架是有秩序的,現在的秩序在做深度學習的人眼中還不存在,或者沒有忙過來。各人做各人的分類問題,比如說有人算這個動物分類,有的人算這個傢俱的分類。各種分類以後,他們之間怎麼樣的關係呢?要對這個圖像或者場景要產生一個整體的語義解釋。

第三個貢獻,Marr提出了一個非常重要的概念,到現在一直還沒有一個完整的解答。他說,計算視覺是一個計算的“過程”。這是什麼意思? 我們以前用貝葉斯方法(以及現在的深度網絡)認爲視覺就是表達成爲一個後驗概率,尋求一個最優解。這個解就是圖像的解釋。這個求解過程就會終止。可是Marr說的這個事情,它不是單純去求一個解,而是一個連續不斷的計算過程。我給你一張圖像,你越看、越琢磨,你可能看到的東西會越多。

我給你一秒鐘,你可能看到某些東西。我給你一分鐘,你可能有另外一種理解,這兩個理解可能是不一樣的。還有一個重要的概念是你的任務決定了你怎麼去看這個圖像,比如說我在慌忙之中在做飯,那麼我對這個場景,只看其中的很小一部分,足夠來完成我的任務就行了。裏面好多東西改變你根本沒注意到。

:好像有些魔術就利用了這一點。

:就是, 很多心理學實驗表明,你眼睛盯着這個圖片看的時候,眼睛不眨,我告訴你這個圖片在改變。你盯着看,結果它改了你都沒看見。在讓你看這個圖片的時候,把你的注意力引到某個任務所需要計算的關鍵要素上,其它部分你就視而不見。視覺是受任務驅動的。而任務是時刻在改變之中。 比方說, 視覺求解不是打一個固定的靶子, 而是打一個運動目標。

:這聽起來是一個耳目一新的概念。

:回到人工智能這個問題,視覺,它最後的用途,要給機器人用,機器人目前面臨一個什麼任務,來決定它要計算什麼。這第三個貢獻是在算法的層面。就是說我根據我們目前面臨的任務,我才決定要計算什麼。而且人的任務是在不斷變化的,在此時此刻我任務都在變化,那麼計算的過程中是沒完沒了地在改變。這個理念到目前,我們目前在研究這個事情,還沒有完全實現。就是說,這將是人工智能和機器人視覺的一個關鍵。

:明白。

:我們現在很多人研究這個智能,比如說分類問題。他都是從谷歌的一些應用,比如搜索圖片、廣告投放,變成分類問題。 從而忽視了更大的本質問題。如果說人工智能往前發展機器人,要從機器人的角度來用視覺的話,那麼它就有很多不同的任務。我現在做飯,我在打球,我在欣賞風景,這個時候我看到的東西是完全不一樣的。我怎麼樣通過這千千萬萬的任務,而不是簡單一個分類,來驅動我的計算的過程,來找到我的需求,來支持我目前的任務,這是一個巨大的研究的方向。David Marr的思想,到今天,反而意義非常重大,因爲大家現在一窩蜂的去搞深度學習,把這些基本東西給忘掉了。但是這纔是人工智能和機器人視覺的長遠發展方向。

我前兩年給過幾個談話,說研究視覺要從一個agent(執行者)的角度,帶着任務進來的這麼一個人或機器人,主動地去激發視覺。
目前的計算機視覺的研究還有一大部分是由視頻監控的應用來驅動的,比如說我檢測一些異常現象,看這個人是男還是女?那這也是一種被動的,就是說它只是在看,沒有去做。要去做的話,就涉及到因果關係和更多的不確定性。所以現在的研究生覺得,他整天在做機器學習, 就在調參數,就在跟別人比拼百分之幾的性能。 一些公司的研究所就報道, 他們在某某問題(數據集)上國際領先了,排名第一了。他們自己也覺得這個研究沒多少意思。那是因爲他們沒有接觸到這些基本的問題上來。

:他們可能還沒有發現這個問題本身是多麼有趣。

:因爲作爲一個科學來發展的話,那它就是要認認真真的來做,把這個理清楚。當前的火熱來源於工業界, 工業界沒有多少耐心資助他們的研究人員去做科學研究,大家很現實。 那麼,David Marr先談這麼多好不好?以後我們可能還會繼續深入談的。

:好。那我們第二個人就談一下傅京孫。

第四節:視覺的開創者之二:傅京孫(King-Sun Fu)的學術思想

: David Marr是從這個神經科學和腦科學這個方向來的。傅京孫【1930-1985】,他當時代表的是計算機科學,搞人工智能的人。他是一個有領導才能的人物。他和其他人於1973年組織了第一屆國際模式識別會議(ICPR),並擔任主席。會議後來演變成國際模式識別學會IAPR,在1976年成立,並被選爲其主席。他重組了另外一個IEEE學會下面的模式識別委員會,並於1974年成爲其第一任主席,創辦了IEEE模式分析和機器智能(PAMI)會刊,並於1978年擔任第一任總編。這是目前計算機視覺和相關領域最權威的一本期刊了。很多中國學生現在不知道,這個領域的老大本來是華人。目前, 國際模式識別學會IAPR設立了一個傅京孫獎, 作爲終身成就獎, 是模式識別的最高榮譽。

:可惜他1985年去世了。聽說去世前他每年都在中國舉辦講座,並於1978年擔任臺灣的中央研究院院士。

:我正要說的這一點。他去世的時候55歲,在普渡大學,據說他的實驗室是一個Chinatown。1978年中國打開國門,中國最早的一批中科院的計算機人員都到他那裏進修,在普渡。所以他對中國計算機的發展,可以說是一個貢獻非常巨大的人。我也是受到他的恩惠,我大學一二年級就開始跟着科大陳國良老師學習,他之前去普度進修。週末我有時就到陳老師家聽他講外面的一些研究人員和工作。你想想,計算機界那時候華人在美國站住腳的可能沒幾個人。

:對,他對中國計算機發展真的是有歷史性的貢獻的。我在科學院上研究生的時候,我們那些老師是說他過世太早了,要不然對中國的研究還會更好,他多活10來年就會好很多。

:他1985年拿到一個很大的國家項目,好像是開宴會的時候心臟病突發了。 他要是活着,華人在這個領域的話,不止是現在這個樣子。不過在他之後, 稍晚一點我們有另外一個傑出華人,黃煦濤(Tom Huang)。他當時也在普渡任教,培養了大量華人研究人員。 我們以後會專門介紹。

:傅京孫的故事也可以拍電影。

:這是我們這個領域的不幸,兩個奠基人很快就走了。他們剛剛把這個地基打起來,人就沒了。

:那傅的主要貢獻是什麼呢?

:傅京孫的貢獻, 我也談三點。第一個貢獻應該就是對這個學科和學會的建設,以及工程師的培養上面,他起到了開創性的作用。一般公認他是模式識別的開山鼻祖,模式識別與計算機視覺分不開的。第二個作用,就是關於他的這個句法結構性的表達與計算,就是句法模式識別,Syntactic Pattern Recognition這個詞,這個詞其實非常深刻。他在走之前,他那個時候也沒有多少數據,那麼他只是畫一些圖,圖表性的東西,來表達他的概念,他從計算機這邊來的,你想很自然就會用到形式語言,因爲計算機裏面的幾個基礎之一是形式語言。邏輯、形式語言,對吧?

:這好像是在編譯原理裏面學到過,因爲編譯的基礎是形式語言。

:我們這個世界的模式, 一個最基本的組織原則是composition。一張圖像就像語言、句子符合語法結構, 視頻中的一個事件也有語法結構。尋找一個層次化、結構化的解釋是計算視覺的核心問題。從傅京孫1985年丟下來這個攤子後,基本很少有人去碰。差不多18年以後,我和我第一個博士生繼續做圖像解譯Image Parsing這個方向,於2003年得了Marr馬爾獎。然後我和我導師專門於2006年寫了一本小書,總結了圖像的隨機語法。我剛纔談到了,在做識別,做分類的時候,只是單獨在分類某一個東西,怎麼去把各個識別器和分類器給它整合在一起,變成一個統一的表達?就必須產生一個結構上的表達。現在機器學習界把它換了另外名字,叫做結構化的輸出,其實是一個東西。他們提出一個新的名詞,把原創的圖像解譯名稱覆蓋住,這事現在經常發生。所以我說機器學習領域經常到別人那裏偷概念,改頭換面。數學界不允許這樣做的。我還是堅持把它叫做解譯、語法。

因爲語法,它就是一些規則,其實語法並不見得是一個確定性的,它可以跟統計連在一塊,它也可以跟目前的一些神經網絡結合,這個都沒問題。它表達了一個骨架或者支柱,形成一個統一表達。
第三點,從算法的角度來講,有一個層次化的表達以後,意義就不一樣了,比如自底向上或自頂向下的計算的過程就可以在上面體現出來,就是馬爾說的計算的過程,就可以在這裏面體現出來。視覺的計算過程應該是由大量的自底向上(bottom-up)和 自頂向下(top-down)過程交互和同時進行的。順便再說一句,當前的深度神經網絡就是一個feedforward的自底向上的計算, 缺乏自頂向下的過程。而在人腦計算中,自頂向下的計算佔據很大一部分。

:那就是說, 這個語法結構對計算過程有了規範和表達的途路。

:對,你的搜索的過程,這個計算的過程是什麼?馬爾他提出了第二個概念,說視覺是個計算的過程,那麼這個計算過程你什麼時候算哪個,這是個調度的問題,就像操作系統。那麼David Marr計算的過程,沒完沒了的,隨着你的任務不斷改變,那麼它就有一個調度的問題。所以說我現在要去做飯,或者我要欣賞風景,或者說我要去走路,開車,那麼它的不同的任務產生了不同的進程。這個進程,要在層次化的表達裏面的統一起來調度。從這個意義看,感知是計算一個解譯圖(parse graph), 認知是對這個parse graph進一步推理擴大, 而機器人的任務規劃(task planning)也是一個同樣結構的parse graph, 那就更別說語言是用parse graph來表達的。所以,人工智能的一個核心表達就是隨機的語法和解譯圖。

:對。

:這個是繞不掉的,不管誰來做,都要做這個事情。當然,現在有人千方百計想繞過去,重新發明一套名詞, 讓新來的學生忘記歷史, 這樣他們就可以變成社會公認的大師。有些教授、研究人員在學術上沒什麼原創貢獻, 卻在網上、社會上成了當紅明星, 學科代言人。用社會上的知名度再給學術界施壓。

總結一下,傅京孫三點主要貢獻:一是學科的人才和組織基礎,二是他提出這麼一個的語法表達方法, 三是這個表達支撐了自底向上或自頂向下的計算的過程。他去世後, 這個方向一直處於一種休眠狀態,我的研究有一條線是跟着這個方向做。2011年馬里蘭大學周少華他的導師有一個演講,題目叫:語法模式識別–從傅到朱 (From Fu to Zhu)。我們在繼承他的框架往前走。

:真好!那麼咱們下面就談第三個人Ulf Grenander。

:這個人的話,知道的人非常少。

:我翻看了網上資料,他是這個領域裏頭真正的是大神了,但絕對是個小衆人物。

第五節:視覺的開創者之三:Ulf Grenander的學術思想

:Ulf Grenander 【1923-2016】是很少有人知道的。感覺有點像金庸小說《天龍八部》裏的在藏經閣掃地的灰衣老僧。武功和思想都出神入化,但是,他基本是世外高人,不參與江湖爭鬥, 金庸也沒有交代他的名字。所以江湖上的人大多沒聽說過他。 這樣也好, 他自自在在活了93歲, 今年剛剛去世的。國際應用數學季刊邀請我和其他人寫紀念文章,正準備出版專刊呢。

:對,我讀他的生平,他這個人簡直就是把歐洲美洲的,還有俄國的所有的精華的人物都接觸過。

:那是,他出身在瑞典,他的導師叫Harald Cramér。概率論裏面的一個重要的定理,還有數論裏的一個猜想是用他命名的。然後,他也跟 Bohr(波爾),Kolmogorov(科爾莫戈羅夫)他們走得比較近。他的起點就是做概率統計, 時間序列, 隨機過程,因爲你現在想概率論和統計學的一些重要應用,就是那個時候發力了。 楊:從保險業開始了,北歐那邊因爲航海,保險業非常發達,所以這也有點道理。

:關於概率和統計學對於科學、視覺、以及人工智能的重要意義, Mumford 1999年寫了一篇論文,是在一個大會的發言,叫做《隨機性時代的曙光》(Dawning of the Age of Stochasticity)。

:對,那是你們老師寫的, 網上能找到。

:他總結說,過去兩千多年的西方科學的發展是建立在亞里士多德以來的數理邏輯基礎之上的。但是,後面一千年包括人工智能、人的思維這些東西是隨機性過程。人的思維應該是建立在概率推理基礎之上。其實, 我們看到現在的機器學習, 人工智能完全就是從這個方向走了。

:你的導師說,整個世界的數學可以用概率的這套思想重新寫一遍,就像羅素和懷特海的寫這個數學原理似的,可以把數學重新建立起來,用概率的這種思想。

:這個工作已經有人做了。E. T. Jaynes就是發明最大熵原理的那個人,他寫了一本很厚的書,《Probability Theory: The Logic of Science》, 他就是用這個原理去寫。這也是一篇遺作。他沒寫完就過世了。這也是以後可以談的話題。

: Ulf Grenander就誕生在這麼一個概率發源的中心的地帶,跟幾個大師學習,博士畢業後出來遊歷,做概率論隨機過程的這些東西。到六、七十年代的時候,他就開始提出來,想用數學來把這個模式識別與智能的現象的問題定義清楚。我們前面談到的David Marr 是從神經科學、認知科學來的。傅京孫是一個計算機科學與工程的人。這兩者基本沒有多少嚴格的數學定義,提出的框架是漂浮的。Ulf是從數學的角度,奠定基礎。他提出來一個應用數學的分支, 叫做 Pattern Theory。他的出發點完全不同, 就是要給世界上的各種模式、現象, 建立一個數學的框架來研究。 格局就很宏偉。而不是急於去解決某種實際問題, 後者叫做模式識別 (pattern recognition)。 他在90歲高齡出版了最後一本書, 想用數學來研究人的思想是從哪裏來的。 你看我們腦袋裏的念頭、主意也往往是隨機產生,像冒泡一樣, 所謂思如泉涌。到底怎麼來的?

:那太了不起了。這個事說起來,我想到當時我的老師是讓我讀Geman and Geman 1984年的吉布斯採樣算法,那就已經了不起了。

:Grenander最後落腳在布朗大學應用數學系,Geman是他當年(70年代末80年代初)招到組裏的年輕教員之一。這個吉布斯採樣(Gibbs Sampler)的算法是一個里程碑的東西,在80年代初引起轟動。但那只是這個學派的諸多貢獻的一個片段。

Grenander的理論解釋起來的確有點費勁,既然談歷史,我先從我個人的經歷談一下。

他1994年出了一部總結性的書,900多頁,叫做《General Pattern Theory》,廣義模式理論。有點愛因斯坦做廣義相對論的意思。但這本書很抽象, 沒多少人讀。我1995年在哈佛研究紋理模型(texture models),因爲我用的學習算法就是吉布斯採樣,在訓練的時候,跑一遍要等兩個星期才收斂,機器被佔了,我就有時間,也是耐着性子把這本書讀完了。我估計世界上不超過20人,能有耐心完整地讀他的書。然後,我1996年1月答辯論文,我導師和我每週開車去布朗大學參加討論。波士頓的冬天很冷, 哈佛到布朗1個小時左右,漫天大雪, 我們有時在高速上車被陷住, 下來剷雪。到了6月, 我導師從哈佛提前退休,帶着我一起加入布朗的應用數學系。那在當時是一個學術思想的中心。組會裏有Grenander,Mumford, Geman 還有其他20來人, 一坐就是2個多小時。這些人都明察秋毫, 做報告的人無法含混過去的, 一步一步都必須理清楚,說不清楚你就下去想, 下次再來。

我一直認爲計算機視覺和模式識別領域虧欠Grenander, 因爲統計建模和隨機計算逐漸成爲我們領域的核心理論基礎,而大家並不知道,很多思想、算法都源於這個人或者他的學派。所以,2012年, 我主持CVPR(國際計算機視覺和模式識別)大會, 特意放到布朗大學附近召開,我和另外兩個主席一說,大家立即就同意了。並特製了一個銀質的大獎章, 在大會上頒給他,表達我們的敬意。這裏發生很多故事,我們以後再談吧。

:那你能簡短總結一下Grenander對計算機視覺、甚至人工智能的主要貢獻嗎。

:還是談三點主要的吧。 首先,他提出了一個思想, 叫做 analysis-by-synthesis, 這是所謂 產生式建模的核心理念。當你要去識別、分析一個模式,比如一個動物,人臉, 一個事件, 你首先要建立一個數理模型, 這個模型通過數據來擬合, 也就是當前的機器學習。 那麼, 判斷這個模型好壞, 或者模型是否充分,的一個依據是什麼呢?產生式建模的方法就是對這個模型隨機抽樣,也就是,合成(synthesis)。 我把這個過程直觀叫做“計算機之夢”。計算機模型一開始初始化爲空(完全隨機), 那它做的夢就是白噪聲, 或者一張白紙。通俗來說, 這個模型就是一個“白癡”。人腦有這個功能,我們把眼睛一閉,沒有外界輸入了,就能做夢, 白日夢就是想象力的體現。一個好的模型採樣產生的圖片(模式), 與真實觀察的圖片(模式), 就應該是真假難辨。如果你能分辨,那說明這個模型不到位。 現在很多機器學習的方法是沒法去隨機合成圖片的。 舉個例子來說,我要檢驗你是不是真的聽懂和理解中文,就看你能不能說流利的中文。如果你說話語法有錯,詞彙量不夠,或者有口音,那就揭示你在哪方面還需要提高。

:這個要求好像比光是聽懂 要更嚴格。

:的確。我們當年考英語, 多半是讀,說和寫都不行。我們考TOEFL, GRE Verbal的時候, 就算沒搞懂, 也能蒙個60%-70%。 新東方的題海戰術也很奏效。當你做了大量考題, 就算不懂, 也能考好。當前大數據、機器學習就用題海戰術。 這個方法強調在實戰中檢驗,考什麼就拼命複習什麼,不考的東西就不學,這也很有道理,很直接, 來得快。 但是, 因爲你的模型沒有真正理解, 沒有“真懂”,考試大綱外面的東西更不懂, 那麼後遺症就是, 遇到新考題, 缺乏泛化能力,遇到新問題,缺乏創造力。

想一想, 如果我的學生一步步考試都是靠題海戰術這麼學過來的, 那多可怕,要讓他們去搞研究、創新,那就基本不可能。很遺憾的是,現在中國學生從幼兒園開始,就是在題海中泡大的。機器人、人工智能,靠題海戰術是可以演示不少功能的, 但是, 那還離真正的智能比較遙遠。

:好, 我明白這個analysis-by-synthesis 的意義了。他的第二貢獻呢?

:他提出了一整套建模的理論和方法。把代數、幾何、概率整合起來。 代數指的是一些結構,比如羣論, 記得在科大本科我學過 羣、環、域這些概念吧?也就是說我有一些基本元素,叫 generator,連接成爲圖graph,然後是羣group,在上面進行操作, 產生了各種各樣的變化。還有很多幾何, 變換, 在連續情況就產生形變。通過組合,語法、產生豐富的圖模式。然後,再在這個圖模式的空間上定義距離(測度)和概率。

:比如一個概率模型, 是定義在一個什麼樣的結構上,它是個什麼樣的解空間?這個數理上你必須交代清楚,否則你的論文寫不下去了。現在它的一個很大的應用在醫療圖像上面,比如說一個病人,他的肝變形了,那麼他的肝的形狀和正常人的肝的形狀之間怎麼定義一個合理的距離?兩張人臉,怎麼定義這個距離的呢?這個距離定義在一個流型上,數學的流型(manifold)。

:這些東西真用上了嗎?

:他有個Postdoc,名叫Michael Miller, 現在是Johns Hopkins 大學圖像中心主任, 就用這一套方法來做醫療圖像、腦科學(Brain Mapping)等方面的應用。

:他的第三方面的貢獻呢?

:第三個方面主要是算法上面。當我們去做求解的時候,在一個解空間,這個求解空間肯定是一個非凸的,他有千千萬萬的局部最優解local minimum 在裏面。

:對。這是當時八十年代的時候提出來一個很尖銳的問題,好像有什麼模擬煺火方法。

:很多蒙特卡洛算法都是他和這個學派的人提出來的。這個解空間是一個異構空間,空間裏面非常複雜的,包含有很多子空間,子空間裏面又包含又子空間,每個子空間維度又不一樣,他們之間,從一個解跳到另外一個解的時候,這跳轉必須是可逆的。在計算機裏面就叫可以回溯。從這個學派走出來的人,他們設計算法每一個步驟都是有章法的,要做到合規合矩。包括上面提到的吉布斯採樣算法、可逆蒙特卡洛跳轉法,還有變分法(variational methods)和偏微分方程式, 還有一些隨機下降法(stochastic gradient), 這後者是目前訓練深度學習模型的主要辦法。他也開創了非參數模型的學習方法。這裏面東西太多,先談到這裏吧。

正因爲很多人沒有接觸過Grenander的理論, 缺乏這方面的理論素養, 造成我們學科發展的一個巨大的問題:很多教授、博士、研究生就是用別人的模型(機),拿來調試,基本缺乏自己發明新模型、新算法的能力。我們這個領域,很多美國名牌大學助理教授、副教授、教授, 他們的論文中的公式錯誤百出。現在乾脆大家在論文中都不寫公式了, 直接報告最後的實驗結果,提高了幾個百分點。這就“一俊掩百醜”了。 英文有個類似的說法叫做 “sweep the dirt under the carpet把污垢掃到地毯下”。 這些人在大量培養博士、他們出來的人評審論文。 這樣一來,學科的發展堪憂! 第六節:結束語
楊:聽了你番談話,我明白很多。記得我當時念研究生,包括念博士生的時候,實際上是很糊塗的。就是對這個領域到底做多少東西,沒有信心。覺得很多研究像畫鬼一樣,原理不清楚。我覺得那樣的話,與其那樣做事情, 那不如干脆到工業界那更快樂。

:正因爲我們這個領域很多歷史、框架性的東西,沒有搞清楚,培養出來的博士,缺乏分析能力。大家被一些工程的任務和數據驅動,被一些性能的指標牽制,對科學的發展比較迷茫。

:好, 談了很多, 我們做個總結吧。

:那我就說兩點。
首先, 我在開場白中提到 “一個民族如果忘記了歷史, 她也註定將失去未來。”一個學科要健康發展,需要研究人員、研究生們理解自己領域的歷史和大的發展方向,建立文化的認同。否則,自己家的東西,被別人偷取,渾然不知。就像日本打入中國,想把我們的地名改掉,大家開始說日語,把名字都改做山本太郎之類,感覺很酷嗎? 或者是韓國人把中國的文化拿去申報世界文化遺產,這都是要制止的。否則,過了一代人,還真說不清楚了。我記得剛來美國的時候,美國同事把漢字叫做“Kang-ji”,說是日本字。 我們領域很多人對保護這個領域的文化和傳統缺乏清醒認識。皮之不存,毛將焉附?

其次,一個學科內部,大家互相不夠了解,各自爲政。特別現在會議審稿人很多是研究生,以自己的狹窄的眼光和標準去評判別人的方法,造成很多混亂。搞工程的看不到理論的重要性,反之亦然。大家又都疏遠心理學和認知科學的研究。我提倡我們的研究人員、學生要提高理論修養、培養長遠眼光,向相關學科取經,取長補短。
我希望這個微信公衆號,能夠幫助大家正視問題,讓計算機視覺這個領域健康、穩健、可持續地發展。


小作者按:
每每讀起來倍覺啓發,謹以此收藏保存。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章