認知、流形與虛實世界

作者:@孫明明_SmarterChina

從第一代單層神經網絡被稱爲“感知機“開始,人工智能學者不斷地追求強有力的方法來感知、認知這個複雜的 世界。(由於語義在各種語境下的混淆,這裏我們不討論認知(Congnition)與感知(Perception)的差異)。統計機器學習方法從線性方 法,到淺層非線性學習,再發展到當前的深度學習的歷程中,數據吞吐處理能力,函數逼近能力,以及方差控制方法都得到了長足的進步。近期,機器已經可以在給 定自然場景圖片集合上識別效果完爆人類,這是否表明機器已經可以認知我們這個複雜的自然場景世界呢?又有研究報告機器很容易被欺騙,對毫無意義的圖片給出 置信度極高的結果,這意味着什麼?在榜單頻繁被刷爆的今天,我們除了跟風刷榜之外,還有那些更本質,更有意義的工作可以去做呢?

本文試圖對上面的問題進行一些討論,並拋磚引玉,請方家指正。

認知過程

從數據中獲取認知,是人們的追求。我們追求的,不是記住圖像的每個像素、每個音節,而是隱含在數據背後,那更本質,能夠使我們做出預測的東西。當我 們能夠從紛繁複雜的世界中辨識出一個目標,並能預測這個目標在外部因素變化情況下發生的變化,我們便可以認爲我們擁有了這個目標的完整認知。

舉 個例子。對世間萬物,映入我們眼簾那一刻,我們的腦海便形成了認知,可能包含幾個層面的信息:類別(人,或桌子),姿態(站立,坐着),顏色,方位等等。 依據這些信息,人腦對當前狀況做出了判斷,** 並可以對未來狀態進行預測 **。比如,如果那個人往左移動1米,那麼這個場景我是可以構想並繪畫出來的。這是人腦這個認知系統的基本能力。

仔細觀察這個過程,我們可以把它拆解成兩個部分:

  • 匹配過程:輸入一副圖像,人腦對其中的不變量(比如生物體的類別模式)進行模式匹配,分離出變量,形成若干個核心維度(比如當前桌子的位置)的認識。
  • 預測過程:當核心維度變量發生變化時,人腦將其與固定模式進行融合,產出預測。

當一個算法能夠完美地完成這兩個過程,我們可以認爲該算法已經形成了對該數據的完整認知。

那麼,我們現在的機器學習系統,比如近期火爆的在ImageNet上取得突破的深度神經網絡,是否形成了對自然場景的完整認知呢?我們來看深度神經網絡在ImageNet任務上,對兩個過程的完成情況:

  • 匹配過程:我們訓練ImageNet的時候,只會輸出目標的類別,而不會輸出目標的姿態,位置信息。深度學習系統對模式分類任務完成很好,但是沒有對物體的內在覈心維度的認知。
  • 預測過程:由於不存在覈心維度的認知,故也無法對核心維度發生變化時做出預測。

因此,ImageNet任務上訓練的深度神經網絡,並沒有完成整個認知過程。當然這首先是任務目標本身決定的。那麼另外一個以brain命名的項 目,Google Brain又如何呢?GoogleBrain以能夠自動發現貓臉而著稱於世。Google Brain 在圖像中識別出貓臉的時候,它的確完成了部分匹配過程。但是,它並沒有展現出能夠預測一個貓在各種形態下的圖像的能力。因此僅根據當前披露的事實,它並沒 有關於“貓”的完整認知。

在繼續討論完整認知之前,先要回答必要性的問題。我們這裏強調完整認知過程,是否有必要?這是否是一個心理學家,或者某某主義的信徒所糾結,但應該被我們這些實踐者所鄙視的話題?

我 認爲,這個問題是實踐者同樣需要關注的問題。首先,一些人工智能應用需求本身需要完整認知過程。一個典型的場景即無人駕駛汽車,它必須對整個道路環境有全 景式的認知,即辨識出所有的物體,並對其中一些物體的當前狀態要素(位置,速度)做出估計,並做出未來一段時間的預測。如果某種方法論,強調能夠end to end實現這種智能系統(正如深度學習的擁躉所堅信),那麼這種方法論必須解決完整認知過程的實現問題。其次,認知的能力是一個整體。即便對於僅關注模式 分類的應用場景,對核心變量與預測過程的重視,也將有助於分類任務的性能提升。這一點已有不少證據,容後文再秉。

從現在開始,我們將討論完整認知過程的實現問題。匹配過程與預測過程的紐帶,是對認知對象的不變量與核心變量進行建模。曾經有一個研究領域,提出了對認知的不變量與變量建模的方法論,那就是流形學習。

流形學習

機器學習任務通常假設數據都位於歐式空間中。既然該數據成爲一個學習目標,該數據集一定具有某種的內在不變性,且具有導致其變化的核心要素集合。適 合該情況的典型數學模型就是流形。即,我們假設數據是位於一個嵌入在高維歐式空間的流形上的。流形本身決定了數據集的不變性,而流形上的座標則對應於那些 核心變量因素。

採用流形建模方式,那麼典型的目標分類任務中每個需要辨識的類別對應一個流形。流形學習方法論對認知過程的實現過程如下:

  • 匹配過程:尋找距離某個物體最近的流形的過程,物體在該流形上的投影座標即該物體的核心變量;
  • 預測過程:連續地改變該物體的投影座標值,那麼該物體將在流形上移動,產出預測。

因此,只要我們能夠從數據中學習到正確的流形,那麼這個認知過程就是完整的。

流形學習的思想由來已久。在80年代,Hestie提出 了Principal Curve/Surface 的思想。更早的Auto-Encoder 可以看做是流形學習的一種實現。雖然80-90年代,不斷有學者提出非線性PCA的算法,很多也提到surface,manifold的概念,但無一個方 法能夠足夠有影響,能夠創立並支持Manifold Learning 這個領域。原因很簡單,沒有任何一個算法能夠在哪怕最簡單的Toy曲面上得到好的效果。Hastie 的Principal Curve 只能逼近一維流形數據,且很容易陷入局部極小問題,無法學到數據的高維流形結構;神經網絡方法整體被人遺忘,AE在真實數據上表現不佳,同樣非常容易陷入 局部極小;KPCA 受限於Kernel 框架,即便在衆多學者在Data Dependent Kernel 及其優化上投入了大量精力的情況下,它在很多數據,甚至Toy 曲面上也沒有很好的結果。因此,對於一個連Toy問題都沒有處理好,大家看不到任何希望的領域,似乎也沒有必要專門提出一個領域進行專門的研究了。

然 而,2000年12月science 雜誌上發表的三篇論文改變了這一切。在這三篇論文中,兩篇算法論文給出了無與倫比的優美結果,另外一篇則是神經科學家的背書。於是,簡單而優雅的新算 法,Toy問題被麻溜地解決,而且帶有那麼一點對計算機領域來說形而上色彩的生理學依據。吸引研究人員的所有必要條件都已具備。由此,“流形學習”這個新 領域便誕生了。

流形學習的肇始方法,LLE 與 ISOMap 的思想,都源自流形的基本定義:局部同構於歐式空間。利用這一點,可以使用傳統歐式空間中線性方法得到局部的變量因素,然後利用全局連通性等約束以及一些 全局目標優化,可以得到整個流形結構上的變量因素。在數學上,這兩個方法與經典的MDS並沒有太多不同,僅僅是個特徵值問題而已。然而,使用如此簡單的數 學方法,僅僅利用局部結構穿起整個全局結構的思路,便給非線性非監督學習的一個重要問題——初始化問題的解決,帶來了希望。(聯想到DNN也是從初始化入 手引起關注,可見人們對非線性學習的初始化問題是多麼的痛恨。)

希望如此之大,研究人員便像飛蛾撲火一樣義無反顧投身其中開始灌水。一時間 各大會議,Transaction都佈滿了被攤平的奇形怪狀的曲面,以及各種姿態的茶壺與人頭圖像序列。LTSA,LE等可以比肩LLE,ISOMap的 方法不斷被提出,而在姿態識別,光源定位等方面的進展似乎也預示着這一套路的流形學習方法必將大行其道,將計算機的認知水平提上一個臺階。

然而,這一切並沒有發生。儘管流形學習的文章在Pami上一直持續到10年代,並且其線性化方法在小樣本人臉識別問題上的研究持續得更久,但流形學習的研究在逐步冷卻。這種冷卻,不是逐步冷靜後積蓄力量的冷卻,而是撞到南牆後無望離去的冷卻。

這 種冷卻顯然是由於流形學習在一些真實任務中敗北造成的。在品質良好的實驗室數據之外的真實數據上,LLE/ISOMap系列的流形學習算法幾乎無一例外全 面敗北。Bengio 在《Non-Local Manifold Tangent Learning》一文中已經明確指出,局部的流形學習方法在現實任務中失敗的原因有:

  • 流形附近的高噪聲干擾;
  • 流形的高曲率;
  • 流形的高內在維度;
  • 存在多流形導致針對每個流形的樣本偏少。

其中,前兩者在現實工作中的表現,即爲樣本集合的近鄰相似度估計不準。這對LLE/ISOMap等高度依賴局部相似鄰域的算法是致命的問題。局部鄰域估計不準確,造成了流形切空間的不光滑,最終導致模型穩定性和推廣型極差。

而後兩點,則涉及機器學習方法的基本困難。這裏容後再表。

Bengio 的這篇論文發表在 2005年。它實際上宣判了LLE/ISOMap 系列方法,即主流流形學習方法的死刑。流形學習方法的研究又持續了5年,期間很多論文沒有引用Bengio的相關研究。這應該是爲了保持自己研究正當性所 採取的刻意的冷遇措施。但無論如何,LLE/ISOMap方法的確死了。儘管在研究高維空間流形逼近的主流形領域,證明了面向認知任務的一維最優流形的存 在性,但缺乏高維曲面的數學工具,沒法推廣到高維流形,而且也沒有引發能夠解決上述問題的新方法出現。由於Deep方法的快速興起,光芒掩蓋了其他領域的 進展,因此流形學習領域的主流方法死掉,也並未引起多少關注。

新時代

2006年,Deep Learning 首先以一個Deep AutoEncoder 的形式登場亮相。如前所屬,Auto-Encoder可以看做一個很好的流形學習實現機制。而且從理論上說,Bengio指出的LLE/ISOMap方法 失敗的原因,在深度學習框架下得到了很大的緩解:

  • 流形附近的高噪聲干擾:神經網絡具有平滑的切空間,因此抗噪聲能力更強;
  • 流形的高曲率:在同樣樣本情況下,深層模型可容納的可變性更強。

但是,或許是由於流形學習方法與深度學習的結合,在數學上乏善可陳,也或許是,在大數據驅動下,深度學習在真實世界的模式識別任務上開始橫掃領域專家,一定程度上掩蓋了對認知全過程的迫切需求,深度流形學習的發展一直沒有獲得太多關注。

儘管如此,近期的一些研究,展示了流形學習思路,或者完整認知的思路,對匹配系統性能提升的必要性。例如:

  1. 基於Local Generalization(即流形學習所依賴的局部相似性)的非監督信息,給匹配階段的學習提供了豐富的信息,以及強大的數據相關的正則化支持。例 如:DL系統在刷圖像數據庫時,普遍採用加噪聲,生成僞標記樣本的方式擴充樣本集合,實際上是通過局部相似性對機器做了正則。另外,視覺領域,自然場景 下,獲取局部相似性的可靠方法,便是依賴視頻流時間局部性決定的相鄰幀的相似性。結合目標檢測等工具,相鄰時間(甚至相當長一段時間)內同一目標的變化可 以認爲是相似的數據。如果流形建模足夠好,那麼非監督信息的正則支持完全可以跨過小的局部鄰域,而在大尺度上提供更強有力的正則支持。
  2. 匹配階段需要預測階段提供正則/約束支持。DNN可以輕易地被欺騙,導致對完全無意義的圖片給出置信度極高的類別判斷。這表明當前DNN的匹配模 型存在過學習現象,難以應對數據集之外豐富多彩的世界。對可變性要求極高的模型進行有效的正則,是難度很高的工作。通過加入預測階段,豐富學習的內容,加 入對類別內部變化因素的學習,並建立預測階段學習機器與匹配階段學習機器的某種一致性約束(例如特徵交互,參數相關等),或許可以緩解這類問題。或者換另 一種更常用的說法,Generative Model 更難以欺騙,可以用這個根兒奧體ve model來增強匹配階段Discriminative Model的魯棒性。Hinton的一篇論文標題《To Recognize Shapes, First Learn to Generate Images》的標題也正是這個意思。最近Deep Mind的Draw系統開始研究圖片生成,的確在某種程度上起到了提升噪聲數字分類準確率的效果。

但是整體上來說,當前主流研究範式中,匹配過程與預測過程仍然是割裂的,並未採用內在的流形結構將二者組合成爲一個整體。這其中的困難有:

  • 困難一:多流形及其內在覈心變量的建模。自然場景下,目標個數是可變的,因此係統需要能夠處理可變個流形的表示與匹配問題;每個流形的內在覈心變量建模是不同維度,且需要各自標定的。
  • 困難二:預測過程的學習困難。預測過程學習的核心是對變更核心變量引發的預測結果給出是否符合預期的判斷及其誤差。由於流形的高曲率,簡單依賴測 試樣本附近的重構誤差不是一個足夠精確的方案。爲得到一個魯棒的認知系統,我們需要更加準確,且適應性更廣,能夠跳出訓練樣本附近,對更主動,更隨意變更 核心變量的行爲後果做出準確的判斷。

此外,Bengio指出的流形學習所面臨的問題中3),4)兩點,維數災難與樣本缺乏,是困擾機器學習的基本問題,也應列入我們的困難之中。但是,爲了避免討論走向深度框架能夠帶來樣本量指數減少這種毫無無意義的理論爭論,這裏寧願從實踐的角度對這個問題進行重新表述:

  • 困難三:系統所能處理的樣本吞吐量受限。大數據以摧枯拉朽的方式摧毀了無數研究高維小樣本場景的學者的生涯。然而,目前的大數據的量級,對於人的 認知成長過程中所經歷的自然場景變化的信息洪流,又算得了什麼?在超大樣本量的情況下,維數災難,甚至某些機器學習的不足(比如淺層)都將可能不是問題。

困難一,屬於面向任務的特定困難。它不是通用方法論的困難,而是實踐取捨的問題,並不是不可克服的。困難二實際上是對智能系統主動反饋的需求;困難三則要求系統的樣本帶寬要足夠的大。後二者是對學習方法論的要求。簡而言之一句話:

    魯棒的認知系統學習過程需要對主動行爲的高帶寬準確反饋。

除去嬰兒學習過程,這一人們容忍性極高的學習例子,目前唯一能夠滿足這一要求的可行學習場景,只有一個可能:虛擬世界。

虛實世界

遊戲世界,是一個典型的具有大吞吐量,能夠對用戶主動行爲進行獎懲反饋的場景。 而且Deep mind已經展示了可以通過Reinforcement Learning來學習最佳遊戲方法的能力。

爲 了建造一個對現實世界中某項任務具有完整認知的AI系統,我們可以建造一個仿真系統,在系統中重現這個任務所面臨的所有情況,將AI系統作爲這個系統的一 個玩家,並根據任務目標來指定AI的各種行爲的獎懲。目前,模擬現實的高仿真遊戲很多,比如虛擬人生,極品飛車等。假想我們的AI系統是極品飛車中的一輛 賽車,它不是通過遊戲內在API機制來進行環境感知,而是獲取正如我們玩遊戲時看到的自然場景圖像;它觸碰物體產生的效果變化,也只能通過視覺、聽覺等來 得到反饋;它的行爲的好壞,也將由由遊戲規則判斷。這樣,對核心操作要素進行流形建模,結合Deep Learning處理目標匹配的強大能力,並通過Reinforcement Learning 的方式來學習主動行爲的反饋,我們將得到一輛在極品飛車世界裏長期佔據冠軍榜的賽車。假設我們開發一個極品飛車北京版,完整重現北京交通路線,不守規矩的 司機,亂穿馬路的行人,擁堵龜速的通行方式,以及春夏秋冬霧霾不斷的天氣情況,那麼指揮這輛車的AI系統,很大可能也能駕駛真實世界的汽車,開行在北京的 大街小巷。

大家一定會爭論虛擬世界與真實世界的差異問題。首先,電影虛擬效果的真實感已經毋庸置疑,而遊戲實時繪製場景的真實感追上電影 只是時間問題。現有的街景等系統,也對提升虛擬世界真實性有很大幫助。其次,虛擬世界的多樣性和可能性遠遠高於真實世界,由於虛擬系統可以任意組合各種非 預期的最壞情況讓AI學習,極品飛車裏的AI至少要比新上路的馬路殺手要靠譜很多。再次,可以用虛擬世界來發現什麼樣的輔助設施能夠讓機器人更好的工作, 來降低機器人在真實世界工作的難度。比如,加入身份識別系統讓AI區分自動駕駛汽車和人駕駛汽車;增加道路信號標誌以及道路傳感器;增加人駕駛汽車的傳感 器等等都能降低AI工作的難度。而何種配置能夠達到經濟效益最佳,在虛擬系統裏只是幾次虛擬運行而已。最後,即便在改造後的真實世界裏,AI的運行不那麼 完美,人們處於懶惰的本性,也會願意改造自己來適應機器。這種事情已經反覆發生了,比如搜索框裏的非原文長query基本不是人話,並且我們對Siri的 指令也帶有特殊的風味。

在虛擬世界中訓練AI,並將它們應用在現實世界,或許是我們建立真正能夠有效而可靠地工作的機器人的最低成本方式。

侷限

我們把智能分爲幾個層面來看:一個是貓狗猴等哺乳動物層面的智能;一個是人獨特的知識、語言,邏輯推理智能;最後,人的情感,藝術智能。上一段描述的虛擬世界構造方法方法能夠實現什麼層級的智能呢?

虛擬世界方案的核心在於,可以實現物理世界中的簡單規律,從而以大吞吐量對主動行爲進行獎懲反饋。因此,我們能夠構造出類似貓狗猴等具有處理物理世界簡單規律能力的智能系統,比如自動駕駛,圖像識別等等。

但 在人類的知識,邏輯等層面,只有真人能夠做出準確的反饋,因此虛擬世界的意義不大。因此,在這個層面上,AI系統的構造更依賴衆包的人工反饋。正所謂有多 少人工就有多少智能。但衆包系統的吞吐量仍然較小。這個層面上可靠的智能構造方法論還沒有出現。知識圖譜與NLP領域舉步維艱的現狀,正是這個原因。

而在情感、藝術層面,由於無法定義標準,任何反饋都失去了意義,正如多數人無法看懂現代藝術,以及你很難區分一個發瘋的人的語言,和一臺胡言亂語的機器。在這個層面上,人工智能並不是一個需要在實現方面考慮的良定義的問題。

結語

本文討論了實現哺乳動物層面智能的一種途徑。即通過流形建模連接匹配與預測過程,形成完整認知;通過深層神經網絡解決模型容量以及光滑性問題;並通 過虛擬世界,解決高帶寬主動探索反饋樣本問題。正如大量標註的ImageNet等數據集使得Deep learning發揮了潛力,大幅提升了系統性能那樣,虛擬世界將提供近乎無窮的訓練樣本,能夠支撐流形認知模型的學習,形成對物理世界的完整認知智能。

雖 然哺乳動物的智能看起來並不起眼,人類也不會被哺乳動物層級的智能所威脅,但是人類社會的大部分工作所需要的只是哺乳動物感知世界的能力配合簡單規則便可 實現的。互聯網新經濟的出現,已經未像傳統工業進步那樣增加就業,而具有哺乳動物智能的智能經濟,則會顯著減少就業需求。這是人類社會鉅變的一個誘因,是 一萬年未見之大變局。無就業人士是會被福利社會養起來,還是會被無情拋棄,那種選擇都會是對人類現有社會心態的巨大挑戰,人類社會也會徹底重塑。我等智能 經濟從業人員,或許屆時未被替換,但是希望那時政治家們能夠負起責任,能夠使我等避免類似奧本海默的良心譴責。

發佈了28 篇原創文章 · 獲贊 75 · 訪問量 257萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章