機器學習(西瓜書)註解:第5章 神經網絡

機器學習(西瓜書)註解:第5章 神經網絡

        本次更新第5章,神經網絡。針對該章註解有任何問題歡迎在此留言~

        本章講解最爲詳細的一部分內容當屬5.3節的BP算法,掌握BP算法是理解深度神經網絡基礎之一。當年BP算法的提出使多層網絡的訓練成爲可能,掀起了神經網絡研究的第二次高潮(參見西瓜書第120頁的小故事),雖然近些年BP算法的作者Hinton曾說要將BP算法推翻(參見微信公衆號機器之心2017年9月的兩篇推送《Geoffrey Hinton:放棄反向傳播,我們的人工智能需要重頭再來》和《被Geoffrey Hinton拋棄,反向傳播爲何飽受質疑?(附BP推導)》),但在可預見的未來,BP算法仍將是訓練多層神經網絡的主要工具。

 

        深度學習無疑是當今最火的研究方向之一。當地時間2019年3月27日,美國計算機協會(ACM)宣佈了今年的圖靈獎獲得者,深度學習三劍客Yoshua Bengio、Geoffery Hinton 和 Yann LeCun共同獲此榮譽,這是三人學術貢獻的肯定,更是對深度學習的肯定。

 

        深度學習可理解爲進行“表示學習”(representation learning,參見5.6節最後兩段),近幾年新興起的深度學習學術會議ICLR(International Conference on Learning Representations)即以此命名。儘管2019年最新版的《中國計算機學會推薦國際學術會議和期刊目錄》仍未收錄該會議,但由深度學習三劍客之二的Yoshua Bengio和Yann LeCun牽頭於2013年創辦ICLR已經被學術研究者們廣泛認可,被認爲是「深度學習的頂級會議」。

 

        自從2012年Hinton和他的學生Alex Krizhevsky設計的AlexNet在ImageNet競賽中以大幅優勢奪冠之後,“深度神經網絡”深入人心,而且網絡越做越深。爲什麼要將網絡加深而不是加寬呢?實際上,“[Hornik et al., 1989]證明,只需一個包含足夠多神經元的隱層,多層前饋網絡就能以任意精度逼近任意複雜度的連續函數”(西瓜書第105頁第2段),有關這個問題作者在5.6節第2段進行了解釋,這裏引用【周志華. 機器學習:發展與未來[J]. 中國計算機學會通訊, 2017, 13(1): 44-51.】中的一段話回答這個問題:

        其實在機器學習理論裏面,我們很早就知道,大致來說,如果你能夠提升一個模型的複雜度,那麼就可以提升其學習能力。比如說對神經網絡這樣的模型,我們怎麼樣提升它的複雜度呢?很明顯有兩個辦法:一個辦法,是把網絡加寬;另外一個辦法,是把它加深。但是如果從提升複雜度的角度來說,加深會更有用。因爲加寬的話其實是增加了基函數的個數;加深的話,不只增加了函數個數,還增加了函數嵌套的層數,從泛函表達上它的能力會更好。所以“加深”對增強模型的複雜度和學習能力更有用。

        當然,也有學者研究將網絡加寬……

        澳門大學陳俊龍(https://www.fst.um.edu.mo/en/staff/pchen.html)於2018年發表了有關寬度學習系統(Broad Learning Systems)的論文:[Chen, C. P., & Liu, Z. (2018). Broad learning system: An effective and efficient incremental learning system without the need for deep architecture. IEEE transactions on neural networks and learning systems, 29(1), 10-24.],有關寬度學習系統還可以參見以下兩個鏈接:

        http://www.broadlearning.ai/

        https://mp.weixin.qq.com/s/Zze1O83PZg9OBdZ7L7AQ7A

       

        除了基於神經網絡的深度學習,西瓜書作者還在考慮其它實現深度學習的方式,如作者在IJCAI’17上發表的Deep Forest: Towards an Alternative to Deep Neural Networks提出了深度森林模型,該文擴展後以“Deep Forest”爲題發表於《國家科學評論》(National Science Review, NSR),鏈接: https://doi.org/10.1093/nsr/nwy108,arXiv: https://arxiv.org/abs/1702.08835

       

        若想更進一步學習掌握深度學習,西瓜書肯定是不夠的,這時當然是要看Ian Goodfellow、Yoshua Bengio和Aaron Courville撰寫的、號稱AI聖經的花書《深度學習》:

        英文版:http://www.deeplearningbook.org/

        中文版:https://github.com/exacity/deeplearningbook-chinese

 

        深度學習課程當然首推Andrew Ng的deeplearning.ai系列在線課程:

        Coursera網址:https://www.coursera.org/specializations/deep-learning

        網易雲課堂網址:https://mooc.study.163.com/university/deeplearning_ai#/c

        課程筆記:https://github.com/fengdu78/deeplearning_ai_books(該筆記由中國海洋大學博士黃海廣負責整理,他還專門建立了一個機器學習愛好者網站http://www.ai-start.com/

        另外還有斯坦福大學的CS230 Deep Learning課程(http://cs230.stanford.edu/),以及臺大的Applied Deep Learning課程(https://www.csie.ntu.edu.tw/~yvchen/f106-adl/index.html)。

 

        Boltzmann機和深度信念網絡(Deep Belief Network, DBN)也是Hinton的代表性工作(分別參見5.5.6節和5.6節第3段),但現實中(讀論文或開會聽報告)暫時也沒遇到,因此就先放一放吧。值得一提的是,DBN也是動態貝葉斯網絡(Dynamic Bayesian Network)的簡寫,DBN可用於處理時序數據,而第7章7.5節介紹的貝葉斯網是靜態貝葉斯網絡。

 

        期刊Nature和Science在學術界的地位不必多說,以下是與本章內容相關的幾篇:

        首先是三篇Hinton發表的有關神經網絡/深度學習的Nature/Science:

  1. Rumerlhar, D. E., Hinton G. E., Williams R. J. (1986). Learning representation by back- propagating errors. Nature, 323, 533-536.
  2. Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
  3. LeCun, Y., Bengio, Y., & Hinton, G. E. (2015). Deep learning. Nature, 521(7553), 436-444.

        還有一篇其他人發表的有關深度學習應用的Nature:

  1. Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.

        除了以上四篇,還在網上搜到了CMU的Tom M. Mitchell發表的一篇Science:

  1. Brynjolfsson, E. , & Mitchell, T. . (2017). What can machine learning do? workforce implications. Science, 358(6370), 1530-1534.

 

        最後,解釋幾個常聽到的簡寫:

                DNN(Deep Neural Network),深度神經網絡

                CNN(Convolutional Neural Network),卷積神經網絡,善長於處理圖像

                RNN(Recurrent/Recursive Neural Networks),遞歸神經網絡,善長於處理時序信號

                LSTM(Long Short Term Memory),長短時間記憶,亦善長於處理時序信號

                GAN(Generative Adversarial Networks),生成對抗網絡,之所以常將其歸類爲深度學習模型,是由於其兩個組成部分(生成模型和判別模型)一般由深度神經網絡構成

 

        儘管當今連接主義大紅大紫,但仍有人堅信統計主義和符號主義終究會回來的(序言中也有提到),讓我們一起期待並努力吧……

(網盤鏈接:https://pan.baidu.com/s/1QtEiNnk8jMzmbs0KPBN-_w) 

第 5 章目錄
第 5 章 神經網絡.............................................................................................................................1
        5.1 神經元模型........................................................................................................................1
        5.2 感知機與多層網絡............................................................................................................1
               1、圖 5.3 的解釋..............................................................................................................1
               2、式(5.1)和式(5.2)的解釋 .............................................................................................2
               3、圖 5.4 的解釋..............................................................................................................2
               4、圖 5.5 的解釋..............................................................................................................2
        5.3 誤差逆傳播算法................................................................................................................2
               1、式(5.3)的解釋.............................................................................................................4
               2、式(5.4)的解釋.............................................................................................................4
               3、式(5.7)的解釋.............................................................................................................4
               4、式(5.8)的推導.............................................................................................................4
               5、式(5.9)的解釋.............................................................................................................4
               6、式(5.10)的推導...........................................................................................................4
               7、式(5.12)的推導...........................................................................................................4
               8、式(5.15)的推導...........................................................................................................5
               9、式(5.13)的推導...........................................................................................................6
               10、式(5.14)的推導 .........................................................................................................6
               11、多隱層神經網絡的 BP 算法推導 ............................................................................6
        5.4 全局最小與局部極小......................................................................................................11
        5.5 其他常見神經網絡..........................................................................................................11
               1、 RBF 網絡 ..................................................................................................................11
               2、增量學習和在線學習...............................................................................................11
               3、遞歸神經網絡...........................................................................................................11
        5.6 深度學習..........................................................................................................................11
               1、什麼是深度學習.......................................................................................................12
               2、什麼是端到端(end-to-end)的思想...........................................................................12
               3、什麼是卷積神經網絡...............................................................................................12
               4、什麼是梯度爆炸和梯度消失...................................................................................13
               5、什麼是 ImageNet......................................................................................................13
        5.7 本章小節..........................................................................................................................13

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章