CNN與圖像識別

將我自己在github pages上的文章轉載到這裏。

卷積神經網絡與圖像識別背景

LeNet概述

LeNet是最早用於深度學習了領域的卷積神經網絡之一。Yann LeCun的這一傑作得名於他自1988年以來的系列成功迭代。彼時LeNet架構還主要被用於識別郵政編碼等任務。LeNet的基本架構如下:

LeNet Workflow

近幾年已經出現了很多建立在LeNet之上的新架構,但是基本概念還是來自於LeNet。

卷積神經網絡始自1990年代起,我們已經認識了最早的LeNet,其他一些很有影響力的架構列舉如下:

  • 1990s至2012:從90年代到2010年代早期,卷積神經網絡都處於孵化階段。隨着數據量增大和計算能力提高,卷積神經網絡能搞定的問題也越來越有意思了。
  • AlexNet(2012):2012年,Alex Krizhevsky發佈了AlexNet,是LeNet的更深、更寬版本,並且大比分贏得了當年的ImageNet大規模圖像識別挑戰賽(ILSVRC)。這是一次非常重要的大突破,現在普及的卷積神經網絡應用都要感謝這一壯舉。
  • ZF Net(2013):2013年的ILSVRC贏家是Matthew Zeiler和Rob Fergus的卷積網絡,被稱作ZF Net,這是調整過架構超參數的AlexNet改進型。
  • GoogleNet(2014):2014的ILSVRC勝者是來自Google的Szegedy et al.。其主要貢獻是研發了Inception Module,它大幅減少了網絡中的參數數量(四百萬,相比AlexNet的六千萬)
  • VGGNet(2014):當年的ILSVRC亞軍是VGGNet,突出貢獻是展示了網絡的深度(層次數量)是良好表現的關鍵因素。
  • ResNet(2015): Kaiming He研發的Residual Network是2015年的ILSVRC冠軍,也代表了卷積神經網絡的最高水平,同時還是實踐的默認選擇(2016年5月)。
  • DenseNet(2016年8月): 由Gao Huang發表,Densely Connected Convolutional Network的每一層都直接與其他各層前向連接。DenseNet已經在五個高難度的物體識別基礎集上,顯式出非凡的進步。

ImageNet大規模圖像識別挑戰賽

參考一個時代的終結:ImageNet競賽2017是最後一屆,WebVision 競賽或接

上面的變種卷積神經網絡基本上都來自一項比賽(DenseNet除外):ImageNet大規模圖像識別挑戰賽(ImageNet Large Scale Visual Recognition Competition,ILSVRC)。

ILSVRC是基於ImageNet圖像庫的一個圖像識別比賽。ImageNet可以說是計算機視覺研究人員進行大規模物體識別和檢測時,最先想到的視覺大數據來源。ImageNet 數據集最初由斯坦福大學李飛飛等人在CVPR 2009的一篇論文中推出,並被用於替代 PASCAL數據集(後者在數據規模和多樣性上都不如 ImageNet)和LabelMe數據集(在標準化上不如ImageNet)。

ImageNet不但是計算機視覺發展的重要推動者,也是這一波深度學習熱潮的關鍵驅動力之一。截至2016年,ImageNet中含有超過1500萬由人手工註釋的圖片網址,也就是帶標籤的圖片,標籤說明了圖片中的內容,超過2.2萬個類別。

CVPR2017研討會“超越ILSVRC”將宣佈今年是 ImageNet 競賽正式組織的最後一年,2016年ILSVRC 的圖像識別錯誤率已經達到約2.9%,不僅遠遠超越人類(5.1%),今後再進行這類競賽意義也不大了。這無疑標誌着一個時代的結束,但也是新徵程的開始:未來,計算機視覺的重點在圖像理解,而作爲ILSVRC替代者的候選人之一是蘇黎世理工大學和谷歌等聯合提出的 WebVision Challenge,也將於CVPR2017同期舉辦,內容側重於學習和理解網絡數據。

歷屆ILSVRC的作品,可以參考ILSVRC歷屆冠軍論文筆記,包含模型框架和識別率等。

卷積與圖像處理

卷積的定義

convolution definition demo

參考Convolution

圖像卷積的物理意義

卷積矩陣也叫“濾波器”、“核”或“特徵探測器”。

image convolution

Image Filter

參考Kernel (image processing)

LeNet詳解

參考Basics of Convolutional Neural network (CNN)

  1. Convolutional Layer
  2. Pooling Layer
  3. Fully Connected Layer
  4. Understanding Training Process

An Intuitive Explanation of Convolutional Neural Networks的講解也不錯,中文版在這裏

手寫數字識別過程可視化

cnn visualizatio

官方網站:
http://scs.ryerson.ca/~aharley/vis/

3D可視化:
http://scs.ryerson.ca/~aharley/vis/conv/

2D可視化:
http://scs.ryerson.ca/~aharley/vis/conv/flat.html

相關論文:
http://scs.ryerson.ca/~aharley/vis/harley_vis_isvc15.pdf

神經網絡中的“神經元”和“權重”在哪裏?

convolution and weights

各個卷機濾波器的裏面的每個位置的值,即是我們需要訓練的權重(卷積濾波器的尺寸是需要我們提前指定好的),每個像素對應於一個神經元。

其中神經網絡的基本概念可以參考TensorFlow Playground

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章