【paper閱讀】AlexNet論文閱讀（打卡）

原創

illusion_小驴

2019-09-26 18:48

3.3 局部響應歸一化（LRN）

在後續研究中被發現沒啥用

3.4 Overlapping Pooling

層疊池化如下圖：

進行了層疊池化，相比非層疊池化的model，更可以抵抗過擬合

3.5 總體的架構

共8個layer：前五個是卷積層，後三個是全連接層
最後一個全連接層作爲input輸入一個1000-維的softmax，得到一個1000維vector，即是其對應1000classes的分佈
目標函數：log-損失函數

input規模計算

每一層feature map規模的計算：
- filter size = f*f
- stride = s
- padding size = p
- n_l = ([n_(l-1) + 2p - f] / s) + 1

4 對抗overfitting的方法

4.1 數據增強（data augmentation）

<方法1>

原數據規模：256*256，現在該圖像上隨意選取224*224的image patches作爲訓練集；
同時對數據進行水平的鏡面翻轉
意義：增加數據量，使用“造平移”、“造對稱”的方法來抵抗過擬合。其意義是，一隻狗的圖像平移或者鏡面對稱後還是狗。。。

<方法2>

改變RGB三通道的intensity。具體改變方法：進行主成分分析（PCA），將找到的主要成分乘以一個乘數。這個乘數抽取自0均值、0.1標準差的高斯分佈

4.2 Dropout

每個神經元都有一定的概率（AlexNet爲0.5）被“遺棄”。
這樣做的原因：每次訓練，神經網絡的結構都不一樣，這導致神經網絡會去學習更robust的、更可以滿足“shared weights”這一特性的特徵。
AlexNet只在前兩個FC層使用了dropout（當然，也就是這兩層參數最多）

5. 學習詳情

learning rate decay：0.0005（LR初始值：0.01）
batch size：128
bias的初始化情況

6. 其他

depth是對於AlexNet極其重要的因素
最後一個FC層輸出的feature activation vector可以被視作CNN自己學到的視覺知識。用此可以去表示一張image。兩個image的該vector的歐氏距離較小，則兩張圖片的確是較爲近似

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Julia Deep Learning CV】第一篇 MNIST

2020-07-08 00:23:43

[blog7]ubuntu18.04安裝opencv3.4.5 python2.7和python3.6

參考https://blog.csdn.net/weixin_41851439/article/details/88712465 https://opencv.org/releases.html下載想要版本的source文件，安裝依賴項

2020-07-07 23:07:48

CV-梯度下降

GD θnext=θlast−ωf′(θi) \Large \theta_{next} = \theta_{last} - \omega f'(\theta_i) θnext=θlast−ωf′(θi) 直到 f′(θne

2020-07-07 20:06:56

CV-色彩空間

色彩三要素色相：基色明度：明暗純度：飽和其中明度和純度感官差異上有些區分不開，可以藉助如下定義純度：顏色中灰色含量的多少亮度：顏色中黑白佔比的多少因爲明亮和飽和的顏色都會對眼睛有明顯的刺激，反正我是分不太

2020-07-07 20:06:56

CNN卷積神經網絡結構遐思

殘缺的神經網絡卷積神經網絡，是神經網絡的子集，是殘缺的神經網絡。 [a00a01a02a10a11a12a20a21a22]⊙[b00b01b10b11]=[c00c01c10c11] \left[\begin{matrix}a

2020-07-07 20:06:56

CV-color

https://nbviewer.jupyter.org/github/forevaer/cv_note/blob/master/1/homework/homework_color.ipynb

2020-07-07 20:06:56

02：像素處理

二值圖像及灰度圖像 1、前提說明：在openCV中，最小的數據類型是無符號的8位數，二值圖像是經過處理得到的 2、圖像可以理解爲一個矩陣，一個openCV灰度圖像就是一個二維數組，可以使用表達式訪問其像素值，例如可以使用[0,0]

2020-07-07 19:32:50

Infrared and visible image perceptive fusion through multi-level Gaussian curvature filtering image

圖像融合---簡單認識圖像融合 Image fusion - Simply recognize image fusion 概念圖像融合（Image Fusion）是指將多源信道所採集到的關於同一目標的圖像數據經過圖像處理和計算機

李伯爵的指间沙

2020-07-07 19:04:25

DeepStream結合OpenCV4實現視頻的分析和截圖（一）

目錄安裝環境 Deepstream-test4配置文件改寫調用OpenCV截圖存疑其他收穫前言本文實現基於test4，基於deepstream-app的更改和代碼更新見DeepStream結合OpenCV4實現視頻的分析和

2020-07-07 16:54:09

ResNet/ResNet-I3D/ResNet-I3D-SlowFast 源碼閱讀

文章目錄0. 前言1. ResNet50-2D2. ResNet-I3D3. ResNet-I3D-SlowFast 0. 前言目標：更好的理解2D/I3D/SlowFast模型。爲了實現MobileNet/Shuff

清欢守护者

2020-07-07 14:47:10

論文瀏覽(11) A Multigrid Method for Efficiently Training Video Models

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：視頻理解訓練加速作者單位：FAIR&得克薩

清欢守护者

2020-07-07 14:47:10

論文瀏覽(10) Towards Real-Time Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀，翻譯論文基本信息領域：多目標跟蹤作者單位：清華&澳大利亞國立

清欢守护者

2020-07-07 14:47:10

論文瀏覽(9) A Simple Baseline for Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：多目標跟蹤作者單位：華科&微軟亞洲研究院發

清欢守护者

2020-07-07 14:47:08

論文瀏覽(15) Online Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github，這個是作者github repo，但沒寫自己是…… 論文解讀，推薦參考資料論

清欢守护者

2020-07-07 14:47:08

論文瀏覽(13) Resource Efficient 3D Convolutional Neural Networks

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：行爲識別作者單位：慕尼黑工業大學&英特爾歐洲

清欢守护者

2020-07-07 14:47:08

24小時熱門文章

最新文章

最新評論文章