Computer Vision的尷尬---by林達華

Computer Vision是AI的一個非常活躍的領域,每年大會小會不斷,發表的文章數以千計(單是CVPR每年就錄取300多,各種二流會議每年的文章更可謂不計其數),新模型新算法新應用層出不窮。可是,浮華背後,根基何在?
對於Vision,雖無大成,但涉獵數年,也有管窺之見。Vision所探索的是一個非常複雜的世界,對於這樣的世界如何建模,如何分析,卻一直沒有受普遍承認的理論體系。大部分的研究工作,循守着幾種模式:
o    從上游學科(比如立體幾何,機器學習,優化等等)獲取現成方法,略加變化,套用於某一具體應用。
o    對現有的某個模型方法的一些不足之處,加以改進,比如在formulation中加入或者簡併參數,或者調整求解過程。
o    選擇多個方法組成一個應用系統。
這些工作實實在在解決了很多問題,功不可沒。然其不足在於,一事一法,難成積澱。故此,每年新發表之工作,雖汗牛充棟,蔚爲大觀,就核心學理,與十年二十年前之狀態相比,沒有根本突破。
過去一年,在導師們的啓發下,涉獵一些其它學科,方知學問之博大,自己以往卻是一直坐井觀天。在這裏其實非常感謝Alan的啓發,他一般沒有很具體的指導,但是他往往會說“你可以看看某某領域,這個問題可能在幾十年前已經被他們在另外一個context下面解決了。”剛開始的時候,我不是很服氣——我在Vision的literature的survey表明它在vision裏面確實是新問題——不過,當我看到那些領域的文章的時候,不得不佩服Alan的廣博知識和對根本不同的領域中的相似問題的洞察力。
我不打算具體討論一個topic,但是,我建議做vision的朋友在有時間的時候去看看一些表面應用完全不同,但是核心學理卻是相通的領域。
o    做Sampling, particle filtering的,不妨看看統計物理學(Statistical Physics),他們對於蒙特卡羅方法已經應用數十年,積累極深,很可能在vision或者learning提出的一些新方法,已經是被他們以另外一種形式或者名稱提出過了。
o    做Tracking, video, 和optimization的,可以看看控制論(Control theory)。控制科學對於動態系統(或者其它隨時間變化的過程)的研究極爲透徹。Alan本來是做控制的,正式他幾次強烈的建議下,我纔去看動態系統論和控制論,看過一些章節後有如醍醐灌頂。我曾經自己花了不少時間導出的一組矩陣微分方程的解,就是control theory裏面已有深入探討的Peano-Baker series在一定條件下的形式。至於做傳導模型或者semi-supervised learning的,控制論中的許多觀點和方法也是很有幫助的。
o    做Graphical model,和各種統計模型的,信息論(information theory)是肯定必要的,這個不用我在這囉嗦了。有一門叫做信息幾何學(information geometry),也值得一觀。
比較之下方顯差距。很多做Vision的朋友都是理論愛好者,喜歡在paper裏面列舉公式以彰顯“理論深度”——可是,我看過的大部分的文章中的公式推演,一般都是循規蹈矩的推導,其水平未必勝於求解一道經典教科書中的數學習題。誠然,這種推理演繹是整個研究中不可缺少的部分,寫在文章中也無可厚非,但是,如果僅此則把推演結果列爲theoretical contribution,則不免爲過了。真正意義的理論貢獻者,不在文中公式多寡,也不在數學深淺,而在於是否能對問題的內在原理展開深入剖析,有所發現,言人之未嘗言,給人以新的啓發。
作爲經典物理基礎的牛頓三定律,從現在vision領域的眼光看來,不過是對實驗的總結,所得結論,除了第二定律有一簡單乘法公式(往高深處說,也不過是常係數線性二階常微分方程)之外,並無太多數學深入其中。雖如此,經典物理的巍峨大廈由此奠定。也許這個例子類比Vision的研究,未必恰當,但是,它起碼可以說明,理論貢獻之義在於去蕪存菁,也就是排開紛繁複雜的表象,發掘那個深刻但是簡單的規律。可是,在vision paper宣稱的理論貢獻中,有多少循此義而行,又有多少在鉛華淨盡之後留傳下來。
縱理論上根基不足,但Vision終究是應用學科,若能廣泛應用則其意義必能發揚。雖然經過幾十年努力,vision確實在社會生活中有了不少各種應用,不過比起其它學科則相形見拙。且不說諸如通信,軟件工程之類早已在全球形成龐大產業,與vision有更多聯繫的video coding,signal processing, 和medical image,其應用之深廣也爲vision所望塵莫及。vision沒能形成應有的工業應用,一則確實是它面臨的實際問題困難重重,實用水平不易達到,二則與我們的研究在相當程度上脫離實際有着很大關聯。
以我以往在香港學習時所做的face recognition來說,這是一個應用性很強的topic,歷史也不短,但在實際條件下的識別水平,做這個的朋友也心裏明白。很多人在研究這個topic,發表的“新方法”也不少,在paper上識別正確率不達到90%是拿不出手的——可是在那幾個標準庫(即使是最新的FRGC)上做出的性能和實際的有多大的差距?很多工作assume頭像區域都對齊良好,光照條件規則,在此條件下研究出來的算法即使能達到100%的識別性能,在環境極爲複雜的條件下能真的應用麼?直到今天,大批文章仍在樂此不疲地討論各種subspace, kernel, svm, boosting的變化花樣,卻從不思考人臉識別的真正要素所在,難道不是捨本逐末之舉。
與此同時,許多在實際工程實踐中的trick,爲性能提高立下汗馬功勞,卻因爲沒有“理論深度”,不登大雅之堂,即使見諸論文,也是在實驗部分草略帶過。然而,一個方法,無論其最初提出是否有理論依據,如果確實能解決問題,則必有其原因。若能靜下心來,暫時忘記那些僅憑思辨就形成的所謂美妙理論,下功夫探究一些確實能解決問題的方法背後所原之學理,其意義不是更大麼。也許每個這樣的工作都很細小,真能積累下來,假以時日,在推動某個方面的應用上必有實實在在的進益。其中,也可能有機會總結出一些真正有價值的理論。
自誕生以來,Vision的發展已歷數十年,不過和許多領域相比,仍處於初始階段,根基尚顯孱弱混亂。唯因如此,對身處其中的研究者,更具挑戰意義,而每一個真正的貢獻也顯得特別有價值。治學之道,不在追逐潮流,而在深原其理。這是新學期新帳號第一次寫blog,謹以此,和每一位熱愛研究的朋友共勉。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章