機器學習（西瓜書）註解：第5章神經網絡

本次更新第5章，神經網絡。針對該章註解有任何問題歡迎在此留言~

本章講解最爲詳細的一部分內容當屬5.3節的BP算法，掌握BP算法是理解深度神經網絡基礎之一。當年BP算法的提出使多層網絡的訓練成爲可能，掀起了神經網絡研究的第二次高潮（參見西瓜書第120頁的小故事），雖然近些年BP算法的作者Hinton曾說要將BP算法推翻（參見微信公衆號機器之心2017年9月的兩篇推送《Geoffrey Hinton：放棄反向傳播，我們的人工智能需要重頭再來》和《被Geoffrey Hinton拋棄，反向傳播爲何飽受質疑？（附BP推導）》），但在可預見的未來，BP算法仍將是訓練多層神經網絡的主要工具。

深度學習無疑是當今最火的研究方向之一。當地時間2019年3月27日，美國計算機協會(ACM)宣佈了今年的圖靈獎獲得者，深度學習三劍客Yoshua Bengio、Geoffery Hinton 和 Yann LeCun共同獲此榮譽，這是三人學術貢獻的肯定，更是對深度學習的肯定。

深度學習可理解爲進行“表示學習”(representation learning，參見5.6節最後兩段)，近幾年新興起的深度學習學術會議ICLR(International Conference on Learning Representations)即以此命名。儘管2019年最新版的《中國計算機學會推薦國際學術會議和期刊目錄》仍未收錄該會議，但由深度學習三劍客之二的Yoshua Bengio和Yann LeCun牽頭於2013年創辦ICLR已經被學術研究者們廣泛認可，被認爲是「深度學習的頂級會議」。

自從2012年Hinton和他的學生Alex Krizhevsky設計的AlexNet在ImageNet競賽中以大幅優勢奪冠之後，“深度神經網絡”深入人心，而且網絡越做越深。爲什麼要將網絡加深而不是加寬呢？實際上，“[Hornik et al., 1989]證明，只需一個包含足夠多神經元的隱層，多層前饋網絡就能以任意精度逼近任意複雜度的連續函數”（西瓜書第105頁第2段），有關這個問題作者在5.6節第2段進行了解釋，這裏引用【周志華. 機器學習:發展與未來[J]. 中國計算機學會通訊, 2017, 13(1): 44-51.】中的一段話回答這個問題：

其實在機器學習理論裏面，我們很早就知道，大致來說，如果你能夠提升一個模型的複雜度，那麼就可以提升其學習能力。比如說對神經網絡這樣的模型，我們怎麼樣提升它的複雜度呢？很明顯有兩個辦法：一個辦法，是把網絡加寬；另外一個辦法，是把它加深。但是如果從提升複雜度的角度來說，加深會更有用。因爲加寬的話其實是增加了基函數的個數；加深的話，不只增加了函數個數，還增加了函數嵌套的層數，從泛函表達上它的能力會更好。所以“加深”對增強模型的複雜度和學習能力更有用。

當然，也有學者研究將網絡加寬……

澳門大學陳俊龍（https://www.fst.um.edu.mo/en/staff/pchen.html）於2018年發表了有關寬度學習系統(Broad Learning Systems)的論文：[Chen, C. P., & Liu, Z. (2018). Broad learning system: An effective and efficient incremental learning system without the need for deep architecture. IEEE transactions on neural networks and learning systems, 29(1), 10-24.]，有關寬度學習系統還可以參見以下兩個鏈接：

http://www.broadlearning.ai/

https://mp.weixin.qq.com/s/Zze1O83PZg9OBdZ7L7AQ7A

除了基於神經網絡的深度學習，西瓜書作者還在考慮其它實現深度學習的方式，如作者在IJCAI’17上發表的Deep Forest: Towards an Alternative to Deep Neural Networks提出了深度森林模型，該文擴展後以“Deep Forest”爲題發表於《國家科學評論》（National Science Review, NSR），鏈接: https://doi.org/10.1093/nsr/nwy108，arXiv: https://arxiv.org/abs/1702.08835。

若想更進一步學習掌握深度學習，西瓜書肯定是不夠的，這時當然是要看Ian Goodfellow、Yoshua Bengio和Aaron Courville撰寫的、號稱AI聖經的花書《深度學習》：

英文版：http://www.deeplearningbook.org/

中文版：https://github.com/exacity/deeplearningbook-chinese

深度學習課程當然首推Andrew Ng的deeplearning.ai系列在線課程：

Coursera網址：https://www.coursera.org/specializations/deep-learning

網易雲課堂網址：https://mooc.study.163.com/university/deeplearning_ai#/c

課程筆記：https://github.com/fengdu78/deeplearning_ai_books（該筆記由中國海洋大學博士黃海廣負責整理，他還專門建立了一個機器學習愛好者網站http://www.ai-start.com/）

另外還有斯坦福大學的CS230 Deep Learning課程（http://cs230.stanford.edu/），以及臺大的Applied Deep Learning課程（https://www.csie.ntu.edu.tw/~yvchen/f106-adl/index.html）。

Boltzmann機和深度信念網絡(Deep Belief Network, DBN)也是Hinton的代表性工作（分別參見5.5.6節和5.6節第3段），但現實中（讀論文或開會聽報告）暫時也沒遇到，因此就先放一放吧。值得一提的是，DBN也是動態貝葉斯網絡(Dynamic Bayesian Network)的簡寫，DBN可用於處理時序數據，而第7章7.5節介紹的貝葉斯網是靜態貝葉斯網絡。

期刊Nature和Science在學術界的地位不必多說，以下是與本章內容相關的幾篇：

首先是三篇Hinton發表的有關神經網絡/深度學習的Nature/Science:

Rumerlhar, D. E., Hinton G. E., Williams R. J. (1986). Learning representation by back- propagating errors. Nature, 323, 533-536.
Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
LeCun, Y., Bengio, Y., & Hinton, G. E. (2015). Deep learning. Nature, 521(7553), 436-444.

還有一篇其他人發表的有關深度學習應用的Nature：

Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.

除了以上四篇，還在網上搜到了CMU的Tom M. Mitchell發表的一篇Science：

Brynjolfsson, E. , & Mitchell, T. . (2017). What can machine learning do? workforce implications. Science, 358(6370), 1530-1534.

最後，解釋幾個常聽到的簡寫：

DNN(Deep Neural Network)，深度神經網絡

CNN(Convolutional Neural Network)，卷積神經網絡，善長於處理圖像

RNN(Recurrent/Recursive Neural Networks)，遞歸神經網絡，善長於處理時序信號

LSTM(Long Short Term Memory)，長短時間記憶，亦善長於處理時序信號

GAN(Generative Adversarial Networks)，生成對抗網絡，之所以常將其歸類爲深度學習模型，是由於其兩個組成部分（生成模型和判別模型）一般由深度神經網絡構成

儘管當今連接主義大紅大紫，但仍有人堅信統計主義和符號主義終究會回來的（序言中也有提到），讓我們一起期待並努力吧……

（網盤鏈接：https://pan.baidu.com/s/1QtEiNnk8jMzmbs0KPBN-_w）

第 5 章目錄
第 5 章神經網絡.............................................................................................................................1
5.1 神經元模型........................................................................................................................1
5.2 感知機與多層網絡............................................................................................................1
1、圖 5.3 的解釋..............................................................................................................1
2、式(5.1)和式(5.2)的解釋 .............................................................................................2
3、圖 5.4 的解釋..............................................................................................................2
4、圖 5.5 的解釋..............................................................................................................2
5.3 誤差逆傳播算法................................................................................................................2
1、式(5.3)的解釋.............................................................................................................4
2、式(5.4)的解釋.............................................................................................................4
3、式(5.7)的解釋.............................................................................................................4
4、式(5.8)的推導.............................................................................................................4
5、式(5.9)的解釋.............................................................................................................4
6、式(5.10)的推導...........................................................................................................4
7、式(5.12)的推導...........................................................................................................4
8、式(5.15)的推導...........................................................................................................5
9、式(5.13)的推導...........................................................................................................6
10、式(5.14)的推導 .........................................................................................................6
11、多隱層神經網絡的 BP 算法推導 ............................................................................6
5.4 全局最小與局部極小......................................................................................................11
5.5 其他常見神經網絡..........................................................................................................11
1、 RBF 網絡 ..................................................................................................................11
2、增量學習和在線學習...............................................................................................11
3、遞歸神經網絡...........................................................................................................11
5.6 深度學習..........................................................................................................................11
1、什麼是深度學習.......................................................................................................12
2、什麼是端到端(end-to-end)的思想...........................................................................12
3、什麼是卷積神經網絡...............................................................................................12
4、什麼是梯度爆炸和梯度消失...................................................................................13
5、什麼是 ImageNet......................................................................................................13
5.7 本章小節..........................................................................................................................13

機器學習（西瓜書）註解：第5章神經網絡

運氣太好了！MATLAB計算出來的結果是錯的這種事情都遇上了

MOSEK二次規劃函數quadprog錯誤: ERROR - (quadprog): H is not a square matrix of dimension length(f)

將LIBSVM用於多分類時根據svmtrain輸出結果得到各OvO分類超平面的法向量w和偏移項b

不動點迭代（Fixed Point Iteration）

IST改進算法之Two-Step Iterative Shrinkage/Thresholding(TwIST)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器學習（西瓜書）註解：第5章 神經網絡

機器學習（西瓜書）註解：第5章神經網絡