夢迴93年,32歲的Yann LeCun在展示他的卷積網絡...


作者:夢佳

1993年的你在哪裏?

1993年的楊立昆已經做出了第一個卷積網絡。

 

最近,Reddit上一段來自1993年的 1分鐘視頻火爆網絡,視頻中,剛過而立之年的Yann LeCun向大家展示了當時世界上第一個可以快速準確識別手寫數字的卷積網絡,LeNet。

識別的第一串字符據說是LeCun當時在貝爾實驗室的電話號碼。

雖然畫質高糊,也沒有背景音,但我們可以清楚地看到,當時的識別準確率已經相當高,也可以識別一定程度的變體。

 

LeNet就是最早的卷積網絡之一。

那個年代,沒有GPU,甚至沒有像樣的CPU,利用幾臺古董機,做出這麼好的成績,LeCun真無愧於卷積神經網絡之父的名頭。

 

01

領銜反向傳播算法,LeNet 曾讀取全美10%支票

 

據LeCun自己的介紹,LeNet 於1988年至1993年,誕生自新澤西州霍姆德爾(Holmdel)貝爾實驗室的自適應系統研究部門。大名鼎鼎的貝爾實驗室曾經被譽爲這個星球上最偉大的實驗室之一,晶體管、電子數字計算機、C語言、UNIX操作系統等重大發明均誕生於此。在加入Facebook之前,LeCun有20年的時光都是在貝爾實驗室度過。

 

早在20世紀80年代中期,LeCun已經展示出非凡的天賦。1986年,在題爲“Learning Internal Representations by Error propagation” 的文章中,便提出了反向傳播算法(BP算法),如今這種算法已經成爲人工神經網絡的標配。

 

英雄所見略同,LeCun在博士就讀期間也獨立發明了反向傳播算法的一種早期版本,隨後他從法國巴黎遠赴多倫多,加入了Hinton的團隊。大師們漂洋過海的相聚促成了反向傳播算法的加速發展。

 

 

在那個年代,深度神經網絡還是個十分冷門的學科。正如一位讀者評論所說,“楊立昆開始做深度神經網絡的時候,大部分人還根本不知深度學習爲何物。”

 

 

優異的成果往往需要天時地利人和。在貝爾實驗室,不到30歲的LeCun接觸到了大量數據集和運行飛快的電腦。

 

正是在貝爾實驗室,LeCun 將 BP 算法應用於卷積神經網絡中,並將其實用化,推廣到各種圖像相關任務中。

 

他創造的網絡可以讀取信件上的手寫郵政編碼,採用修訂的美國國家標準與技術研究院(MNIST)數據庫作爲一種標記數據基準。這項技術當時最主要的應用有自動讀取郵件信息,以及識別ATM機上銀行支票的金額。有趣的是,最難的部分其實是查找支票上數字的位置,因爲每張支票都有不同的格式。

 

他協助開發的銀行支票識別系統讀取了20世紀90年代末至21世紀初全美國超過10%的支票。

 

1998年,在此基礎上,LeCun 在論文《Gradient-Based Learning Applied to Document Recognition》中提出了最終的神經網絡結構 LeNet-5,將BP算法應用到這個神經網絡結構的訓練上,形成了當代卷積神經網絡的雛形。

 

 

LeNet-5可以用於手寫機印識別,甚至可以識別一些極端的變體,對於字符的扭曲和和簡單的幾何變換具有魯棒性。

 

 

02

從冰點期重生,三十年後捲土重來

驀然回首,三十載已過。曾經三十歲的青年,如今也已經邁過六十的大關,步入耳順之年。

 

80年代初,LeCun剛剛進入機器學習領域的時候,神經網絡思想火了一陣。只是好景不長,demo中演示的片段雖然是星星之火但因爲遇到了“AI寒冬”而沒有成燎原之勢。更復雜多樣的機器識別需要更高的運算量,顯然已經超出了當時硬件設備的負荷。

 

原本蒸蒸日上的計劃卻因爲公司內部鬥爭被迫叫停,LeCun也一度陷入消沉。LeCun 曾經在採訪中回憶往事,“就在黎明來臨之際,整個項目卻被解散得差不多了”。

 

關於漫長的深度學習冰點期,依圖科技CEO朱瓏曾經撰文寫道:

人工智能領域,神經網絡思想在80年代末開始衰落,之後分別經歷了幾個劃時代的圖靈獎級工作的興起,統計學習理論(帶來支持向量機 SVM 算法),可學習理論(帶來 Boosting 算法),概率推斷(圖模型,graphical model)幾乎壟斷了過去的三十年。在2012年的 Geoff Hinton 團隊的深度學習打敗Google的標誌性事件前,圖模型的思想橫掃計算機視覺領域(超越了boosting,SVM等)。這使得深度學習生存艱難,沒有多少同行在研究中使用深度學習,更多年輕學生願意去“時髦”的機器學習研究組。

具有轉折意義的是2003年。那一年,LeCun成爲紐約大學教師,並與三巨頭的另外兩位Hinton 和 Bengio結成非正式的聯盟,一個名爲Neural Computation and Adaptive Perception(NCAP,神經計算和自適應感知)的項目,共同主導了神經網絡的“復興”。

 

大衆狂歡的前夜是小衆的“陰謀”。

 

三人小組組建後不久,Hinton 便將「神經網絡」更名爲「深度學習」(Deep Learning)。2006 年,Hinton發表了兩篇代表性的論文:

 

  • A fast learning algorithm for deep belief nets;

  • Reducing the dimensionality of data with neural networks,

 

當中提出了深度信念網絡(Deep Belief Nets)。與傳統的訓練方式不同,“深度信念網絡”有一個“預訓練”(pre-training)的過程,這可以方便地讓神經網絡中的權值找到一個接近最優解的值,之後再使用“微調”(fine-tuning)技術來對整個網絡進行優化訓練。這種分階段兩部訓練技術的運用大幅度減少了訓練多層神經網絡的時間。深度信念網絡正是深度學習爆發前夕重要的研究成果之一。

 

而令人驚訝的是,6年後的2012年,Yann LeCun的文章依然在頂會CVPR上發表困難,甚至慘遭拒稿。審稿人表示他的論文結果存疑。同年,LeCun 和 Bengio 共同創辦了 ICLR(International Conference on Learning Representations,國際學習表徵會議),希望爲「深度學習」提供一個專業化的交流平臺。

 

 

後來的故事我們都很熟悉,深度學習一度迎來了黃金時代,從學界到工業界呈現爆發式的增長,GPU帶來的強大計算能力讓深度學習系統有能力完成幾年前計算機不可能完成的工作。“從沒人做這個方向到所有人都做這個方向,只花了不到一年的時間。”

 

如今,LeCun已經年過六十,Hinton也已經年過七旬。爲了這個深度的“信念”,竟然堅守了三十年。

當然,一直以來有關深度學習過譽的聲音也不絕於耳。2015年,在周志華的《機器學習》一書的序言中,陸汝鈐院士提到“深度學習掀起的熱潮也許大過它本身真正的貢獻,在理論和技術上並沒有太多的創新,只不過是由於硬件技術的革命,計算機的速度大大提高了,使得人們有可能採用原來複雜度很高的算法,從而得到比過去更精細的結果。”

 

2018年,曾有學者表示,“很多研究領域都經歷過萌芽期,發展期,泡沫,迴歸正常。深度學習顯然在泡沫期,泡沫過後一地雞毛。”

 

深度學習如今已經過了泡沫期,但顯然並沒有“一地雞毛”,究其原因在於“It works”。

 

03

幾點啓示

最後,簡單說三點啓示。

 

第一,任何偉大的工作,都是站在巨人肩膀上做出的。

 

 

如今大家普遍認爲 Yann LeCun 是“CNN之父”。但最早提出CNN思想的則是福島邦彥(當時不叫CNN,而是Neocognitron),1980年從貓的視覺系統實驗中得到的啓發提出卷積和池化的思想(這又要致敬Hubel和Wiesel)。LeCun發明的 LeNet 的不同之處在於引入了BP算法,也因此把CNN發揚光大。任何偉大的工作都不是憑空想出來的,而必然是基於前人大量工作的基礎上,添加了一個“細枝末節”,卻產生了巨大變化。

 

第二,人工智能的最終勝利還很遙遠。

有讀者看罷視頻評論表示,「現在所謂的AI其實還是停留在那個年代!只有應用方面成熟了,沒有突破性的進步。」對於這種聲音,從業者認爲,“如果以爲CNN就是AI的巔峯技術,從而斷言AI這幾十年都沒有革命性的進步,那就有點太鼠目寸光了。科學的發展都是一步一個腳印,妄言自己已經站在巔峯,未免過於狂妄。”

 

第三,“少數派”要擁有獨立的見解和勇氣。

回望過去10年,以深度學習爲代表的人工智能技術取得了巨大進展,這個發展的過程離不開研究人員獨立的見解和勇氣,就像爲了證明「神經網絡」是有用的,三巨頭堅守長達三十年,Yann LeCun曾經被屢屢拒稿,被業內人士排擠也沒有忘記初心。期間,深度學習經歷了低谷和復興,最終從邊緣化走向主流。

 

在過去的數年,深度學習不僅深刻改變了人工智能學科,也在許多場景中不斷顛覆傳統學科的研究範式,呈現出“多點爆發”的趨勢。從最初的茫然無知,到後來的全民興奮、資本湧入,到現在熱潮退去、迴歸理性。身處其中的研究者必定要經受一番考驗,選擇隨波逐流還是堅持信仰。



點擊左下角“閱讀原文”,瞭解更多!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章