將我自己在github pages上的文章轉載到這裏。
卷積神經網絡與圖像識別背景
LeNet概述
LeNet是最早用於深度學習了領域的卷積神經網絡之一。Yann LeCun的這一傑作得名於他自1988年以來的系列成功迭代。彼時LeNet架構還主要被用於識別郵政編碼等任務。LeNet的基本架構如下:
近幾年已經出現了很多建立在LeNet之上的新架構,但是基本概念還是來自於LeNet。
卷積神經網絡始自1990年代起,我們已經認識了最早的LeNet,其他一些很有影響力的架構列舉如下:
- 1990s至2012:從90年代到2010年代早期,卷積神經網絡都處於孵化階段。隨着數據量增大和計算能力提高,卷積神經網絡能搞定的問題也越來越有意思了。
- AlexNet(2012):2012年,Alex Krizhevsky發佈了AlexNet,是LeNet的更深、更寬版本,並且大比分贏得了當年的ImageNet大規模圖像識別挑戰賽(ILSVRC)。這是一次非常重要的大突破,現在普及的卷積神經網絡應用都要感謝這一壯舉。
- ZF Net(2013):2013年的ILSVRC贏家是Matthew Zeiler和Rob Fergus的卷積網絡,被稱作ZF Net,這是調整過架構超參數的AlexNet改進型。
- GoogleNet(2014):2014的ILSVRC勝者是來自Google的Szegedy et al.。其主要貢獻是研發了Inception Module,它大幅減少了網絡中的參數數量(四百萬,相比AlexNet的六千萬)。
- VGGNet(2014):當年的ILSVRC亞軍是VGGNet,突出貢獻是展示了網絡的深度(層次數量)是良好表現的關鍵因素。
- ResNet(2015): Kaiming He研發的Residual Network是2015年的ILSVRC冠軍,也代表了卷積神經網絡的最高水平,同時還是實踐的默認選擇(2016年5月)。
- DenseNet(2016年8月): 由Gao Huang發表,Densely Connected Convolutional Network的每一層都直接與其他各層前向連接。DenseNet已經在五個高難度的物體識別基礎集上,顯式出非凡的進步。
ImageNet大規模圖像識別挑戰賽
參考一個時代的終結:ImageNet競賽2017是最後一屆,WebVision 競賽或接。
上面的變種卷積神經網絡基本上都來自一項比賽(DenseNet除外):ImageNet大規模圖像識別挑戰賽(ImageNet Large Scale Visual Recognition Competition,ILSVRC)。
ILSVRC是基於ImageNet圖像庫的一個圖像識別比賽。ImageNet可以說是計算機視覺研究人員進行大規模物體識別和檢測時,最先想到的視覺大數據來源。ImageNet 數據集最初由斯坦福大學李飛飛等人在CVPR 2009的一篇論文中推出,並被用於替代 PASCAL數據集(後者在數據規模和多樣性上都不如 ImageNet)和LabelMe數據集(在標準化上不如ImageNet)。
ImageNet不但是計算機視覺發展的重要推動者,也是這一波深度學習熱潮的關鍵驅動力之一。截至2016年,ImageNet中含有超過1500萬由人手工註釋的圖片網址,也就是帶標籤的圖片,標籤說明了圖片中的內容,超過2.2萬個類別。
CVPR2017研討會“超越ILSVRC”將宣佈今年是 ImageNet 競賽正式組織的最後一年,2016年ILSVRC 的圖像識別錯誤率已經達到約2.9%,不僅遠遠超越人類(5.1%),今後再進行這類競賽意義也不大了。這無疑標誌着一個時代的結束,但也是新徵程的開始:未來,計算機視覺的重點在圖像理解,而作爲ILSVRC替代者的候選人之一是蘇黎世理工大學和谷歌等聯合提出的 WebVision Challenge,也將於CVPR2017同期舉辦,內容側重於學習和理解網絡數據。
歷屆ILSVRC的作品,可以參考ILSVRC歷屆冠軍論文筆記,包含模型框架和識別率等。
卷積與圖像處理
卷積的定義
參考Convolution。
圖像卷積的物理意義
卷積矩陣也叫“濾波器”、“核”或“特徵探測器”。
參考Kernel (image processing)。

LeNet詳解
參考Basics of Convolutional Neural network (CNN)。
- Convolutional Layer
- Pooling Layer
- Fully Connected Layer
- Understanding Training Process
An Intuitive Explanation of Convolutional Neural Networks的講解也不錯,中文版在這裏。
手寫數字識別過程可視化
官方網站:
http://scs.ryerson.ca/~aharley/vis/
3D可視化:
http://scs.ryerson.ca/~aharley/vis/conv/
2D可視化:
http://scs.ryerson.ca/~aharley/vis/conv/flat.html
相關論文:
http://scs.ryerson.ca/~aharley/vis/harley_vis_isvc15.pdf
神經網絡中的“神經元”和“權重”在哪裏?
各個卷機濾波器的裏面的每個位置的值,即是我們需要訓練的權重(卷積濾波器的尺寸是需要我們提前指定好的),每個像素對應於一個神經元。
其中神經網絡的基本概念可以參考TensorFlow Playground。