【深度學習之美】人工“碳”索意猶盡，智能“硅”來未可知（入門系列之二）

原文於2017年5月22日發表於雲棲社區：https://yq.aliyun.com/articles/88300?utm_content=m_216783

系列文章：一入侯門“深”似海，深度學習深幾許（入門系列之一）

在前面的小節中，我們僅僅泛泛而談了機器學習、深度學習等概念，在這一小節，我們將給出它的更加準確的形式化描述。

我們經常聽到人工智能如何如何？深度學習怎樣怎樣？那麼它們之間有什麼關係呢？在本小節，我們首先從宏觀上談談人工智能的“江湖定位”和深度學習的歸屬。然後再在微觀上聊聊機器學習的數學本質是什麼？以及我們爲什麼要用神經網絡？

2.1 人工智能的“江湖定位”

宏觀上來看，人類科學和技術的發展，大致都遵循着這樣的規律：現象觀察、理論提取和人工模擬（或重現）。人類“觀察大腦”的歷史由來已久，但由於對大腦缺乏“深入認識”，常常“絞盡腦汁”，也難以“重現大腦”。

直到上個世紀40年代以後，腦科學、神經科學、心理學及計算機科學等衆多學科，取得了一系列重要進展，使得人們對大腦的認識相對“深入”，從而爲科研人員從“觀察大腦”到“重現大腦”搭起了橋樑，哪怕這個橋樑到現在還僅僅是個並不堅固的浮橋。

圖2-1 人工智能的本質

而所謂的“重現大腦”，在某種程度上，就是目前的研究熱點——人工智能。簡單來講，人工智能就是爲機器賦予人類的智能。由於目前的機器核心部件是由晶體硅構成，所以可稱之爲“硅基大腦”。而人類的大腦主要由碳水化合物構成，因此可稱之爲“碳基大腦”。

那麼，現在的人工智能，通俗來講，大致就是用“硅基大腦”模擬或重現“碳基大腦”。那麼，在未來會不會出現“碳硅合一”的大腦或者全面超越人腦的“硅基大腦”呢？

有人就認爲，在很大程度上，這個答案可能是“會的”！比如說，未來預言大師雷·庫茲韋爾（Ray Kurzweil）就預測，到2045年，人類的“奇點”時刻就會臨近[1] 。這裏的“奇點”是指，人類與其他物種（物體）的相互融合，更確切來說，是硅基智能與碳基智能兼容的那個奇妙時刻。

2.2 深度學習的歸屬

在當下，雖然深度學習領跑人工智能。但事實上，人工智能研究領域很廣，包括機器學習、計算機視覺、專家系統、規劃與推理、語音識別、自然語音處理和機器人等。而機器學習又包括深度學習、監督學習、無監督學習等。簡單來講，機器學習是實現人工智能的一種方法，而深度學習僅僅是實現機器學習的一種技術而已（如圖2-2所示）。

圖2-2 深度學習的“江湖地位”

需要說明的是，對人工智能做任何形式的劃分，都可能是有缺陷的。在圖2中，人工智能的各類技術分支，彼此涇渭分明，但實際上，它們之間卻可能阡陌縱橫，比如說深度學習是無監督的。語音識別可以用深度學習的方法來完成。再比如說，圖像識別、機器視覺更是當前深度學習的拿手好戲。

一言蔽之，人工智能的分支並不是一個有序的樹，而是一個彼此纏繞的灌木叢。有時候，一個分藤蔓比另一個分藤蔓生長得快，並且處於顯要地位，那麼它就是當時的研究熱點。深度學習的前生——神經網絡的發展，就是這樣的幾起幾落。當下，深度學習如日中天，但會不會也有“虎落平陽被犬欺”的一天呢？從事物的發展規律來看，這一天肯定會到來！

在圖3-2中，既然我們把深度學習和傳統的監督學習和無監督學習單列出來，自然是有一定道理的。這就是因爲，深度學習是高度數據依賴型的算法，它的性能通常隨着數據量的增加而不斷增強，也就是說它的可擴展性（Scalability）顯著優於傳統的機器學習算法（如圖2-3所示）。

圖2-3 深度學習和傳統學習算法的區別

但如果訓練數據比較少，深度學習的性能並不見得就比傳統機器學習好。其潛在的原因在於，作爲複雜系統代表的深度學習算法，只有數據量足夠多，才能通過訓練，在深度神經網絡中，“恰如其分”地將把蘊含於數據之中的複雜模式表徵出來。

不論機器學習，還是它的特例深度學習，在大致上，都存在兩個層面的分析（如圖2-4所示）：

圖2-4 機器學習的兩層作用

（1）面向過去（對收集到的歷史數據，用作訓練），發現潛藏在數據之下的模式，我們稱之爲描述性分析（Descriptive Analysis）；

（2）面向未來，基於已經構建的模型，對於新輸入數據對象實施預測，我們稱之爲預測性分析（Predictive Analysis）。

前者主要使用了“歸納”，而後者更側重於“演繹”。對歷史對象的歸納，可以讓人們獲得新洞察、新知識，而對新對象實施演繹和預測，可以使機器更加智能，或者說讓機器的某些性能得以提高。二者相輔相成，均不可或缺。

在前面的部分，我們給予機器學習的概念性描述，下面我們給出機器學習的形式化定義。

2.3.機器學習的形式化定義

在《未來簡史》一書中[2]，尤瓦爾•赫拉利說，根據數據主義的觀點，人工智能實際上就是找到一種高效的“電子算法”，用以代替或在某項指標上超越人類的“生物算法”。那麼，任何一個“電子算法”都要實現一定的功能（Function），纔有意義。

在計算機術語中，中文將“Function”翻譯成“函數”，這個多少有點扯淡，因爲它的翻譯並沒有達到“信達雅”的標準，除了給我們留下一個抽象的概念之外，什麼也沒有剩下來。但這一稱呼已被廣爲接受，我們也只能“約定俗成”地把“功能”叫做“函數”了。

根據臺灣大學李宏毅博士的說法，所謂機器學習，在形式上，可近似等同於在數據對象中，通過統計或推理的方法，尋找一個適用特定輸入和預期輸出功能函數（如圖2-5所示）。習慣上，我們把輸入變量寫作大寫的X ，而把輸出變量寫作大寫的Y 。那麼所謂的機器學習，在形式上，就是完成如下變換：Y= f(X) 。

圖2-5 機器學習近似等同於找一個好用的函數

在這樣的函數中，針對語音識別功能，如果輸入一個音頻信號X，那麼這個函數Y就能輸出諸如“你好”，“How are you？”等這類識別信息。

針對圖片識別功能，如果輸入的是一個圖片X，在這個函數Y的加工下，就能輸出（或稱識別出）一個貓或狗的判定。

針對下棋博弈功能，如果輸入的是一個圍棋的棋譜局勢（比如AlphaGO）X，那麼Y能輸出這個圍棋的下一步“最佳”走法。

類似地，對於具備智能交互功能的系統（比如微軟的小冰），當我們給這個函數X輸入諸如“How are you？”，那麼Y就能輸出諸如“I am fine，thank you？”等智能的迴應。

每個具體的輸入，都是一個實例（instance），它通常由特徵空間（feature vector）構成。在這裏，所有特徵向量存在的空間稱爲特徵空間（feature space），特徵空間的每一個維度，對應於實例的一個特徵。

但問題來了，這樣“好用的”函數並不那麼好找。當輸入一個貓的圖像後，這個函數並不一定就能輸出它就是一隻貓，可能它會錯誤地輸出爲一條狗或一條蛇。

這樣一來，我們就需要構建一個評估體系，來辨別函數的好壞（Goodness）。當然，這中間自然需要訓練數據（training data）來“培養”函數的好品質（如圖6所示）。在第一小節中，我們提到，學習的核心就是性能改善，在圖6中，通過訓練數據，我們把f1改善爲f2的樣子，性能（判定的準確度）得以改善了，這就是學習！很自然，這個學習過程如果是在機器上完成的，那就是“機器學習”了。

圖2-6 機器學習的三步走

具體說來，機器學習要想做得好，需要走好三大步：
（1）如何找一系列函數來實現預期的功能，這是建模問題。
（2）如何找出一組合理的評價標準，來評估函數的好壞，這是評價問題。
（3）如何快速找到性能最佳的函數，這是優化問題（比如說，機器學習中梯度下降法乾的就是這個活）。

2.4 爲什麼要用神經網絡？

我們知道，深度學習的概念源於人工神經網絡的研究。含多隱層的多層感知機就是一種深度學習結構。所以說到深度學習，就不能不提神經網絡。

那麼什麼是神經網絡呢？有關神經網絡的定義有很多。這裏我們給出芬蘭計算機科學家Teuvo Kohonen的定義（這老爺子以提出“自組織神經網絡”而名揚人工智能領域）：“神經網絡，是一種由具有自適應性的簡單單元構成的廣泛並行互聯的網絡，它的組織結構能夠模擬生物神經系統對真實世界所作出的交互反應。”

在機器學習中，我們常常提到“神經網絡”，實際上是指“神經網絡學習”。學習是大事，不可忘記！
那爲什麼我們要用神經網絡學習呢？這個原因說起來，有點“情非得已”。
我們知道，在人工智能領域，有兩大主流門派。第一個門派是符號主義。符號主義的理念是，知識是信息的一種表達形式，人工智能的核心任務，就是處理好知識表示、知識推理和知識運用。這個門派核心方法論是，自頂向下設計規則，然後通過各種推理，逐步解決問題。很多人工智能的先驅（比如CMU的赫伯特•西蒙）和邏輯學家，很喜歡這種方法。但這個門派的發展，目前看來並不太好。未來會不會“峯迴路轉”，現在還不好說。

還有一個門派，就是試圖編寫一個通用模型，然後通過數據訓練，不斷改善模型中的參數，直到輸出的結果符合預期，這個門派就是連接主義。連接主義認爲，人的思維就是某些神經元的組合。因此，可以在網絡層次上模擬人的認知功能，用人腦的並行處理模式，來表徵認知過程。這種受神經科學的啓發的網絡，被稱之人工神經網絡（Artificial Neural Network，簡稱ANN）。目前，這個網絡的升級版，就是目前非常流行的深度學習。

前面我們提到，機器學習在本質就是尋找一個好用的函數。而人工神經網絡最“牛逼”的地方在於，它可以在理論上證明：只需一個包含足夠多神經元的隱藏層，多層前饋網絡能以任意精度逼近任意複雜度的連續函數[4]。這個定理也被稱之爲通用近似定理（Universal Approximation Theorem）。這裏的“Universal”，也有人將其翻譯成“萬能的”，由此可見，這個定理的能量有多大。換句話說，神經網絡可在理論上解決任何問題，這就是目前深度學習能夠“牛逼哄哄”最底層的邏輯（當然，大數據+大計算也功不可沒，後面還會繼續討論）。

2.5 小結

在本小節中，我們首先談了談人工智能的“江湖定位”，然後指出深度學習僅僅是人工智能研究的很小的一個分支，接着我們給出了機器學習的形式化定義。最後我們回答了爲什麼人工神經網絡能“風起雲涌”，簡單來說，在理論上可以證明，它能以任意精度逼近任意形式的連續函數，而機器學習的本質，不就是要找到一個好用的函數嘛？

在下小節，我們將深度解讀什麼是激活函數，什麼是卷積？（很多教科書真是越講越糊塗，希望你看到下一小節，能有所收穫）

2.6 請你思考

學完前面的知識，請你思考如下問題（掌握思辨能力，好像比知識本身更重要）：

（1）你認可庫茲韋爾“到2045年人類的奇點時刻就會臨近”的觀點嗎？爲什麼？庫茲韋爾的預測，屬於科學的範疇嗎？（提示：可以從波普爾的科學評判的標準——是否具備可證僞性分來析。）

（2）深度學習的性能，高度依賴性於訓練數據量的大小？這個特性是好還是壞？（提示：在《聖經》中有七宗原罪，其中一宗罪就是暴食，而原罪就是“deadly sin”，即死罪。目前，深度學習貪吃數據和能量，能得以改善嗎？）

寫下你的心得體會，祝你每天都有進步！

（未完待續）

【參考文獻】

1 雷·庫茲韋爾, 李慶誠等譯. 奇點臨近.機械工業出版社.2012.12
2尤瓦爾·赫拉利，未來簡史. 出版社：中信出版社.2017.1
[3] 李航.統計學習方法.清華大學出版社.2012.3
[4] Hornik K, Stinchcombe M, White H. Multilayer feedforward networks are universal approximators[J]. Neural networks, 1989, 2(5): 359-366.

文章作者：張玉宏（著有《品味大數據》、本文節選自《深度學習之美》（最通俗易懂的深度學習入門）2018年7月出版）

神經網絡不勝語， M-P模型似可尋（深度學習入門系列之三）
“機器學習”三重門，“中庸之道”趨若人（深度學習入門系列之四）
Hello World感知機，懂你我心才安息(深度學習入門系列之五)

玉來愈宏

發佈了41 篇原創文章 · 獲贊 57 · 訪問量 10萬+

私信關注

【深度學習之美】人工“碳”索意猶盡，智能“硅”來未可知（入門系列之二）

系列文章：一入侯門“深”似海，深度學習深幾許（入門系列之一）

2.1 人工智能的“江湖定位”

2.2 深度學習的歸屬

2.3.機器學習的形式化定義

2.4 爲什麼要用神經網絡？

2.5 小結

2.6 請你思考

【參考文獻】

數據的黑暗陷阱是什麼？——你想要一匹更快的馬，還是一輛汽車？

【深度學習之美】神經網絡不勝語， M-P模型似可尋（入門系列之三）

乾隆會判阿爾法狗死刑嗎 ——淺談當前人工智能的技術進化

大數據時代的小數字感：數據再有價值，別人聽不懂照樣沒用

AI不可怕，就怕AI會畫畫——這裏有一種你還不知道的‘圖’靈測試…

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結