CNN與圖像識別

將我自己在github pages上的文章轉載到這裏。

卷積神經網絡與圖像識別背景

LeNet概述

LeNet是最早用於深度學習了領域的卷積神經網絡之一。Yann LeCun的這一傑作得名於他自1988年以來的系列成功迭代。彼時LeNet架構還主要被用於識別郵政編碼等任務。LeNet的基本架構如下：

近幾年已經出現了很多建立在LeNet之上的新架構，但是基本概念還是來自於LeNet。

卷積神經網絡始自1990年代起，我們已經認識了最早的LeNet，其他一些很有影響力的架構列舉如下：

1990s至2012：從90年代到2010年代早期，卷積神經網絡都處於孵化階段。隨着數據量增大和計算能力提高，卷積神經網絡能搞定的問題也越來越有意思了。
AlexNet(2012)：2012年，Alex Krizhevsky發佈了AlexNet，是LeNet的更深、更寬版本，並且大比分贏得了當年的ImageNet大規模圖像識別挑戰賽(ILSVRC)。這是一次非常重要的大突破，現在普及的卷積神經網絡應用都要感謝這一壯舉。
ZF Net(2013)：2013年的ILSVRC贏家是Matthew Zeiler和Rob Fergus的卷積網絡，被稱作ZF Net，這是調整過架構超參數的AlexNet改進型。
GoogleNet(2014)：2014的ILSVRC勝者是來自Google的Szegedy et al.。其主要貢獻是研發了Inception Module，它大幅減少了網絡中的參數數量（四百萬，相比AlexNet的六千萬）。
VGGNet(2014)：當年的ILSVRC亞軍是VGGNet，突出貢獻是展示了網絡的深度（層次數量）是良好表現的關鍵因素。
ResNet(2015)： Kaiming He研發的Residual Network是2015年的ILSVRC冠軍，也代表了卷積神經網絡的最高水平，同時還是實踐的默認選擇（2016年5月）。
DenseNet（2016年8月）：由Gao Huang發表，Densely Connected Convolutional Network的每一層都直接與其他各層前向連接。DenseNet已經在五個高難度的物體識別基礎集上，顯式出非凡的進步。

ImageNet大規模圖像識別挑戰賽

參考一個時代的終結：ImageNet競賽2017是最後一屆，WebVision 競賽或接。

上面的變種卷積神經網絡基本上都來自一項比賽（DenseNet除外）：ImageNet大規模圖像識別挑戰賽(ImageNet Large Scale Visual Recognition Competition，ILSVRC)。

ILSVRC是基於ImageNet圖像庫的一個圖像識別比賽。ImageNet可以說是計算機視覺研究人員進行大規模物體識別和檢測時，最先想到的視覺大數據來源。ImageNet 數據集最初由斯坦福大學李飛飛等人在CVPR 2009的一篇論文中推出，並被用於替代 PASCAL數據集（後者在數據規模和多樣性上都不如 ImageNet）和LabelMe數據集（在標準化上不如ImageNet）。

ImageNet不但是計算機視覺發展的重要推動者，也是這一波深度學習熱潮的關鍵驅動力之一。截至2016年，ImageNet中含有超過1500萬由人手工註釋的圖片網址，也就是帶標籤的圖片，標籤說明了圖片中的內容，超過2.2萬個類別。

CVPR2017研討會“超越ILSVRC”將宣佈今年是 ImageNet 競賽正式組織的最後一年，2016年ILSVRC 的圖像識別錯誤率已經達到約2.9%，不僅遠遠超越人類（5.1%），今後再進行這類競賽意義也不大了。這無疑標誌着一個時代的結束，但也是新徵程的開始：未來，計算機視覺的重點在圖像理解，而作爲ILSVRC替代者的候選人之一是蘇黎世理工大學和谷歌等聯合提出的 WebVision Challenge，也將於CVPR2017同期舉辦，內容側重於學習和理解網絡數據。

歷屆ILSVRC的作品，可以參考ILSVRC歷屆冠軍論文筆記，包含模型框架和識別率等。