【深度學習之美】人工“碳”索意猶盡,智能“硅”來未可知(入門系列之二)

原文於2017年5月22日發表於雲棲社區:https://yq.aliyun.com/articles/88300?utm_content=m_216783


系列文章:一入侯門“深”似海,深度學習深幾許(入門系列之一)


在前面的小節中,我們僅僅泛泛而談了機器學習、深度學習等概念,在這一小節,我們將給出它的更加準確的形式化描述。

我們經常聽到人工智能如何如何?深度學習怎樣怎樣?那麼它們之間有什麼關係呢?在本小節,我們首先從宏觀上談談人工智能的“江湖定位”和深度學習的歸屬。然後再在微觀上聊聊機器學習的數學本質是什麼?以及我們爲什麼要用神經網絡?

2.1 人工智能的“江湖定位”


宏觀上來看, 人類科學和技術的發展,大致都遵循着這樣的規律:現象觀察、理論提取和人工模擬(或重現)。 人類“觀察大腦”的歷史由來已久,但由於對大腦缺乏“深入認識”,常常“絞盡腦汁”,也難以“重現大腦”。

直到上個世紀40年代以後,腦科學、神經科學、心理學及計算機科學等衆多學科,取得了一系列重要進展,使得人們對大腦的認識相對“深入”,從而爲科研人員從“觀察大腦”到“重現大腦”搭起了橋樑,哪怕這個橋樑到現在還僅僅是個並不堅固的浮橋。

brainTocpu

圖2-1 人工智能的本質

而所謂的“重現大腦”,在某種程度上,就是目前的研究熱點——人工智能。簡單來講,人工智能就是爲機器賦予人類的智能。由於目前的機器核心部件是由晶體硅構成,所以可稱之爲“硅基大腦”。而人類的大腦主要由碳水化合物構成,因此可稱之爲“碳基大腦”。

那麼, 現在的人工智能,通俗來講,大致就是用“硅基大腦”模擬或重現“碳基大腦”。 那麼,在未來會不會出現“碳硅合一”的大腦或者全面超越人腦的“硅基大腦”呢?

有人就認爲,在很大程度上,這個答案可能是“會的”!比如說,未來預言大師雷·庫茲韋爾(Ray Kurzweil)就預測,到2045年,人類的“奇點”時刻就會臨近[1] 。這裏的“奇點”是指,人類與其他物種(物體)的相互融合,更確切來說,是硅基智能與碳基智能兼容的那個奇妙時刻。

2.2 深度學習的歸屬


在當下,雖然深度學習領跑人工智能。但事實上,人工智能研究領域很廣,包括機器學習、計算機視覺、專家系統、規劃與推理、語音識別、自然語音處理和機器人等。而機器學習又包括深度學習、監督學習、無監督學習等。簡單來講,機器學習是實現人工智能的一種方法,而深度學習僅僅是實現機器學習的一種技術而已(如圖2-2所示)。

_

圖2-2 深度學習的“江湖地位”

需要說明的是,對人工智能做任何形式的劃分,都可能是有缺陷的。在圖2中,人工智能的各類技術分支,彼此涇渭分明,但實際上,它們之間卻可能阡陌縱橫,比如說深度學習是無監督的。語音識別可以用深度學習的方法來完成。再比如說,圖像識別、機器視覺更是當前深度學習的拿手好戲。

一言蔽之, 人工智能的分支並不是一個有序的樹,而是一個彼此纏繞的灌木叢。 有時候,一個分藤蔓比另一個分藤蔓生長得快,並且處於顯要地位,那麼它就是當時的研究熱點。深度學習的前生——神經網絡的發展,就是這樣的幾起幾落。當下,深度學習如日中天,但會不會也有“虎落平陽被犬欺”的一天呢?從事物的發展規律來看,這一天肯定會到來!

在圖3-2中,既然我們把深度學習和傳統的監督學習和無監督學習單列出來,自然是有一定道理的。這就是因爲,深度學習是高度數據依賴型的算法,它的性能通常隨着數據量的增加而不斷增強,也就是說它的可擴展性(Scalability)顯著優於傳統的機器學習算法(如圖2-3所示)。

deepVSolderalg

圖2-3 深度學習和傳統學習算法的區別

但如果訓練數據比較少,深度學習的性能並不見得就比傳統機器學習好。其潛在的原因在於,作爲複雜系統代表的深度學習算法,只有數據量足夠多,才能通過訓練,在深度神經網絡中,“恰如其分”地將把蘊含於數據之中的複雜模式表徵出來。

不論機器學習,還是它的特例深度學習,在大致上,都存在兩個層面的分析(如圖2-4所示):

big_data_future

圖2-4 機器學習的兩層作用

(1)面向過去(對收集到的歷史數據,用作訓練),發現潛藏在數據之下的模式,我們稱之爲描述性分析(Descriptive Analysis);

(2)面向未來,基於已經構建的模型,對於新輸入數據對象實施預測,我們稱之爲預測性分析(Predictive Analysis)。

前者主要使用了“歸納”,而後者更側重於“演繹”。對歷史對象的歸納,可以讓人們獲得新洞察、新知識,而對新對象實施演繹和預測,可以使機器更加智能,或者說讓機器的某些性能得以提高。二者相輔相成,均不可或缺。

在前面的部分,我們給予機器學習的概念性描述,下面我們給出機器學習的形式化定義。

2.3.機器學習的形式化定義


在《未來簡史》一書中[2],尤瓦爾•赫拉利說,根據數據主義的觀點,人工智能實際上就是找到一種高效的“電子算法”,用以代替或在某項指標上超越人類的“生物算法”。那麼,任何一個“電子算法”都要實現一定的功能(Function),纔有意義。

在計算機術語中,中文將“Function”翻譯成“函數”,這個多少有點扯淡,因爲它的翻譯並沒有達到“信達雅”的標準,除了給我們留下一個抽象的概念之外,什麼也沒有剩下來。但這一稱呼已被廣爲接受,我們也只能“約定俗成”地把“功能”叫做“函數”了。

根據臺灣大學李宏毅博士的說法,所謂機器學習,在形式上,可近似等同於在數據對象中,通過統計或推理的方法,尋找一個適用特定輸入和預期輸出功能函數(如圖2-5所示)。習慣上,我們把輸入變量寫作大寫的X ,而把輸出變量寫作大寫的Y 。那麼所謂的機器學習,在形式上,就是完成如下變換:Y= f(X) 。

Machine_learning

圖2-5 機器學習近似等同於找一個好用的函數

在這樣的函數中,針對語音識別功能,如果輸入一個音頻信號X,那麼這個函數Y就能輸出諸如“你好”,“How are you?”等這類識別信息。

針對圖片識別功能,如果輸入的是一個圖片X,在這個函數Y的加工下,就能輸出(或稱識別出)一個貓或狗的判定。

針對下棋博弈功能,如果輸入的是一個圍棋的棋譜局勢(比如AlphaGO)X,那麼Y能輸出這個圍棋的下一步“最佳”走法。

類似地,對於具備智能交互功能的系統(比如微軟的小冰),當我們給這個函數X輸入諸如“How are you?”,那麼Y就能輸出諸如“I am fine,thank you?”等智能的迴應。

每個具體的輸入,都是一個實例(instance),它通常由特徵空間(feature vector)構成。在這裏,所有特徵向量存在的空間稱爲特徵空間(feature space),特徵空間的每一個維度,對應於實例的一個特徵。

但問題來了,這樣“好用的”函數並不那麼好找。當輸入一個貓的圖像後,這個函數並不一定就能輸出它就是一隻貓,可能它會錯誤地輸出爲一條狗或一條蛇。

這樣一來,我們就需要構建一個評估體系,來辨別函數的好壞(Goodness)。當然,這中間自然需要訓練數據(training data)來“培養”函數的好品質(如圖6所示)。在第一小節中,我們提到,學習的核心就是性能改善,在圖6中,通過訓練數據,我們把f1改善爲f2的樣子,性能(判定的準確度)得以改善了,這就是學習!很自然,這個學習過程如果是在機器上完成的,那就是“機器學習”了。

Asetoffunction
圖2-6 機器學習的三步走

具體說來,機器學習要想做得好,需要走好三大步:
(1) 如何找一系列函數來實現預期的功能,這是建模問題。
(2) 如何找出一組合理的評價標準,來評估函數的好壞,這是評價問題。
(3) 如何快速找到性能最佳的函數,這是優化問題(比如說,機器學習中梯度下降法乾的就是這個活)。

2.4 爲什麼要用神經網絡?


我們知道,深度學習的概念源於人工神經網絡的研究。含多隱層的多層感知機就是一種深度學習結構。所以說到深度學習,就不能不提神經網絡。

那麼什麼是神經網絡呢?有關神經網絡的定義有很多。這裏我們給出芬蘭計算機科學家Teuvo Kohonen的定義(這老爺子以提出“自組織神經網絡”而名揚人工智能領域):“神經網絡,是一種由具有自適應性的簡單單元構成的廣泛並行互聯的網絡,它的組織結構能夠模擬生物神經系統對真實世界所作出的交互反應。”

在機器學習中,我們常常提到“神經網絡”,實際上是指“神經網絡學習”。學習是大事,不可忘記!
那爲什麼我們要用神經網絡學習呢?這個原因說起來,有點“情非得已”。
我們知道,在人工智能領域,有兩大主流門派。第一個門派是符號主義。符號主義的理念是,知識是信息的一種表達形式,人工智能的核心任務,就是處理好知識表示、知識推理和知識運用。這個門派核心方法論是,自頂向下設計規則,然後通過各種推理,逐步解決問題。很多人工智能的先驅(比如CMU的赫伯特•西蒙)和邏輯學家,很喜歡這種方法。但這個門派的發展,目前看來並不太好。未來會不會“峯迴路轉”,現在還不好說。

還有一個門派,就是試圖編寫一個通用模型,然後通過數據訓練,不斷改善模型中的參數,直到輸出的結果符合預期,這個門派就是連接主義。連接主義認爲,人的思維就是某些神經元的組合。因此,可以在網絡層次上模擬人的認知功能,用人腦的並行處理模式,來表徵認知過程。這種受神經科學的啓發的網絡,被稱之人工神經網絡(Artificial Neural Network,簡稱ANN)。目前,這個網絡的升級版,就是目前非常流行的深度學習。

前面我們提到,機器學習在本質就是尋找一個好用的函數。而人工神經網絡最“牛逼”的地方在於,它可以在理論上證明:只需一個包含足夠多神經元的隱藏層,多層前饋網絡能以任意精度逼近任意複雜度的連續函數[4]。這個定理也被稱之爲通用近似定理(Universal Approximation Theorem)。這裏的“Universal”,也有人將其翻譯成“萬能的”,由此可見,這個定理的能量有多大。換句話說,神經網絡可在理論上解決任何問題,這就是目前深度學習能夠“牛逼哄哄”最底層的邏輯(當然,大數據+大計算也功不可沒,後面還會繼續討論)。

2.5 小結


在本小節中,我們首先談了談人工智能的“江湖定位”,然後指出深度學習僅僅是人工智能研究的很小的一個分支,接着我們給出了機器學習的形式化定義。最後我們回答了爲什麼人工神經網絡能“風起雲涌”,簡單來說,在理論上可以證明,它能以任意精度逼近任意形式的連續函數,而機器學習的本質,不就是要找到一個好用的函數嘛?

在下小節,我們將深度解讀什麼是激活函數,什麼是卷積?(很多教科書真是越講越糊塗,希望你看到下一小節,能有所收穫)

2.6 請你思考


學完前面的知識,請你思考如下問題(掌握思辨能力,好像比知識本身更重要):

(1)你認可庫茲韋爾“到2045年人類的奇點時刻就會臨近”的觀點嗎?爲什麼?庫茲韋爾的預測,屬於科學的範疇嗎?(提示:可以從波普爾的科學評判的標準——是否具備可證僞性分來析。)

(2)深度學習的性能,高度依賴性於訓練數據量的大小?這個特性是好還是壞?(提示:在《聖經》中有七宗原罪,其中一宗罪就是暴食,而原罪就是“deadly sin”,即死罪。目前,深度學習貪吃數據和能量,能得以改善嗎?)

寫下你的心得體會,祝你每天都有進步!

( 未完待續 )

【參考文獻】

1 雷·庫茲韋爾, 李慶誠等譯. 奇點臨近.機械工業出版社.2012.12
2尤瓦爾·赫拉利,未來簡史. 出版社:中信出版社.2017.1
[3] 李航.統計學習方法.清華大學出版社.2012.3
[4] Hornik K, Stinchcombe M, White H. Multilayer feedforward networks are universal approximators[J]. Neural networks, 1989, 2(5): 359-366.

文章作者:張玉宏(著有《品味大數據》、本文節選自深度學習之美》(最通俗易懂的深度學習入門)2018年7月出版)


神經網絡不勝語, M-P模型似可尋(深度學習入門系列之三)
“機器學習”三重門,“中庸之道”趨若人(深度學習入門系列之四)
Hello World感知機,懂你我心才安息(深度學習入門系列之五)


發佈了41 篇原創文章 · 獲贊 57 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章