Computer Vision的尷尬---by林達華

Computer Vision是AI的一個非常活躍的領域，每年大會小會不斷，發表的文章數以千計（單是CVPR每年就錄取300多，各種二流會議每年的文章更可謂不計其數），新模型新算法新應用層出不窮。可是，浮華背後，根基何在？
對於Vision，雖無大成，但涉獵數年，也有管窺之見。Vision所探索的是一個非常複雜的世界，對於這樣的世界如何建模，如何分析，卻一直沒有受普遍承認的理論體系。大部分的研究工作，循守着幾種模式：
o    從上游學科（比如立體幾何，機器學習，優化等等）獲取現成方法，略加變化，套用於某一具體應用。
o    對現有的某個模型方法的一些不足之處，加以改進，比如在formulation中加入或者簡併參數，或者調整求解過程。
o    選擇多個方法組成一個應用系統。
這些工作實實在在解決了很多問題，功不可沒。然其不足在於，一事一法，難成積澱。故此，每年新發表之工作，雖汗牛充棟，蔚爲大觀，就核心學理，與十年二十年前之狀態相比，沒有根本突破。
過去一年，在導師們的啓發下，涉獵一些其它學科，方知學問之博大，自己以往卻是一直坐井觀天。在這裏其實非常感謝Alan的啓發，他一般沒有很具體的指導，但是他往往會說“你可以看看某某領域，這個問題可能在幾十年前已經被他們在另外一個context下面解決了。”剛開始的時候，我不是很服氣——我在Vision的literature的survey表明它在vision裏面確實是新問題——不過，當我看到那些領域的文章的時候，不得不佩服Alan的廣博知識和對根本不同的領域中的相似問題的洞察力。
我不打算具體討論一個topic，但是，我建議做vision的朋友在有時間的時候去看看一些表面應用完全不同，但是核心學理卻是相通的領域。
o    做Sampling, particle filtering的，不妨看看統計物理學(Statistical Physics），他們對於蒙特卡羅方法已經應用數十年，積累極深，很可能在vision或者learning提出的一些新方法，已經是被他們以另外一種形式或者名稱提出過了。
o    做Tracking, video, 和optimization的，可以看看控制論(Control theory)。控制科學對於動態系統（或者其它隨時間變化的過程）的研究極爲透徹。Alan本來是做控制的，正式他幾次強烈的建議下，我纔去看動態系統論和控制論，看過一些章節後有如醍醐灌頂。我曾經自己花了不少時間導出的一組矩陣微分方程的解，就是control theory裏面已有深入探討的Peano-Baker series在一定條件下的形式。至於做傳導模型或者semi-supervised learning的，控制論中的許多觀點和方法也是很有幫助的。
o    做Graphical model，和各種統計模型的，信息論(information theory)是肯定必要的，這個不用我在這囉嗦了。有一門叫做信息幾何學(information geometry)，也值得一觀。
比較之下方顯差距。很多做Vision的朋友都是理論愛好者，喜歡在paper裏面列舉公式以彰顯“理論深度”——可是，我看過的大部分的文章中的公式推演，一般都是循規蹈矩的推導，其水平未必勝於求解一道經典教科書中的數學習題。誠然，這種推理演繹是整個研究中不可缺少的部分，寫在文章中也無可厚非，但是，如果僅此則把推演結果列爲theoretical contribution，則不免爲過了。真正意義的理論貢獻者，不在文中公式多寡，也不在數學深淺，而在於是否能對問題的內在原理展開深入剖析，有所發現，言人之未嘗言，給人以新的啓發。
作爲經典物理基礎的牛頓三定律，從現在vision領域的眼光看來，不過是對實驗的總結，所得結論，除了第二定律有一簡單乘法公式（往高深處說，也不過是常係數線性二階常微分方程）之外，並無太多數學深入其中。雖如此，經典物理的巍峨大廈由此奠定。也許這個例子類比Vision的研究，未必恰當，但是，它起碼可以說明，理論貢獻之義在於去蕪存菁，也就是排開紛繁複雜的表象，發掘那個深刻但是簡單的規律。可是，在vision paper宣稱的理論貢獻中，有多少循此義而行，又有多少在鉛華淨盡之後留傳下來。
縱理論上根基不足，但Vision終究是應用學科，若能廣泛應用則其意義必能發揚。雖然經過幾十年努力，vision確實在社會生活中有了不少各種應用，不過比起其它學科則相形見拙。且不說諸如通信，軟件工程之類早已在全球形成龐大產業，與vision有更多聯繫的video coding，signal processing, 和medical image，其應用之深廣也爲vision所望塵莫及。vision沒能形成應有的工業應用，一則確實是它面臨的實際問題困難重重，實用水平不易達到，二則與我們的研究在相當程度上脫離實際有着很大關聯。
以我以往在香港學習時所做的face recognition來說，這是一個應用性很強的topic，歷史也不短，但在實際條件下的識別水平，做這個的朋友也心裏明白。很多人在研究這個topic，發表的“新方法”也不少，在paper上識別正確率不達到90%是拿不出手的——可是在那幾個標準庫（即使是最新的FRGC）上做出的性能和實際的有多大的差距？很多工作assume頭像區域都對齊良好，光照條件規則，在此條件下研究出來的算法即使能達到100%的識別性能，在環境極爲複雜的條件下能真的應用麼？直到今天，大批文章仍在樂此不疲地討論各種subspace, kernel, svm, boosting的變化花樣，卻從不思考人臉識別的真正要素所在，難道不是捨本逐末之舉。
與此同時，許多在實際工程實踐中的trick，爲性能提高立下汗馬功勞，卻因爲沒有“理論深度”，不登大雅之堂，即使見諸論文，也是在實驗部分草略帶過。然而，一個方法，無論其最初提出是否有理論依據，如果確實能解決問題，則必有其原因。若能靜下心來，暫時忘記那些僅憑思辨就形成的所謂美妙理論，下功夫探究一些確實能解決問題的方法背後所原之學理，其意義不是更大麼。也許每個這樣的工作都很細小，真能積累下來，假以時日，在推動某個方面的應用上必有實實在在的進益。其中，也可能有機會總結出一些真正有價值的理論。
自誕生以來，Vision的發展已歷數十年，不過和許多領域相比，仍處於初始階段，根基尚顯孱弱混亂。唯因如此，對身處其中的研究者，更具挑戰意義，而每一個真正的貢獻也顯得特別有價值。治學之道，不在追逐潮流，而在深原其理。這是新學期新帳號第一次寫blog，謹以此，和每一位熱愛研究的朋友共勉。

Computer Vision的尷尬---by林達華

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

遷移學習&自我學習

Linux的IO系統常用系統調用及分析

計算機視覺方面2015年重要會議deadline

理解sparse coding

Li Fei-fei寫給她學生的一封信，如何做好研究以及寫好PAPER

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結