AlexNet_原理详细

问题背景：本来想直接跳到R-CNN的，转念一想，基础没打牢还是不好，于是又回过头来学习学习AlexNet。
原文链接：https://blog.csdn.net/taoyanqi8932/article/details/71081390

一、原理部分

上图是来自paper的原汁原味AlexNet网络结构。可以看到：

整个网络从左往右，有一个输入，然后有8个需要训练的层,前5个为卷积层,最后3层为全连接层。分别说说这些层：

第一个层 conv_1：

输入的图片大小为224*224*3
有96个卷积核,尺寸为11*11,即11*11*96。步长（stride）为4.
按照无padding的方式，输出的每个feature map尺寸应该为54*54

怎么计算出来？（224-11+1）/4，向上取整，或者（224-11）/4+1，向下取整

但论文里面写输出的尺寸是55*55，关于这个，有2种解释：
1）这里用了padding=SAME的方式，可参考这个链接理解，有兴趣的去看API
https://www.jianshu.com/p/05c4f1621c7e
2）输入图片的尺寸给错了，应该是227*227.
- 96个卷积核，所以feature map的大小为55*55*96.
- 卷积层后跟ReLU，同时后面跟LRN层,尺寸不变.
- 然后跟着最大池化层,核大小为3*3,步长为2,因此feature map的大小为:27*27*96.（55-3+1）/2，向上取整=27

第二个层 conv_2:

输入的tensor为27*27*96
卷积核的大小为: 5*5*256,步长为1,如果按照无padding=VALID，输出feature map为:23*23*256，跟最大池化后的结果不符，因此倾向于认为本文都是padding=SAME。因此，步长为1时，feature map为27*27*256.
同样紧跟ReLU,和LRN层.尺寸不变,
最大池化层,核大小为3*3,步长为2,因此feature map为:13*13*256。（27-3+1）/2，向上取整=13

第三个层 conv_3:
输入tensor为13*13*256
卷积核 3*3*384,步长为1,feature map为:13*13*384
加上ReLU，尺寸不变
无最大池化层

第四个层 conv_4:
配置和conv_3一样，因此feature map为:13*13*384

第五个层 conv_5:
输入tensor为13*13*384
卷积核 3*3*256,步长为1,feature map为:13*13*256
加上ReLU，尺寸不变
最大池化层，核大小3*3,步长为2,因此feature map:6*6*256，（13-3+1）/2，向上取整6

在看全连接层前，可以补一下预备知识，我觉得这两个讲得蛮好的，从两个角度来说的：
https://blog.csdn.net/u011021773/article/details/78121359
https://blog.csdn.net/l691899397/article/details/52267166

这里想啰嗦一下，说说自己的见解。从维度的角度上来说。前面我们对二维图片进行卷积，卷积核也是二维的，但因为有多个卷积核，所以卷积出来的结果是三维的。现在，我们对三维的feature map进行卷积，卷积核也是三维的，有多个这样的卷积核，那么出来的结果是不是应该四维呢？是这样没错。但是！但是！但是！巧妙地用与feature map同样尺寸大小的卷积核，结果就会是一维的，其它三维点乘的结果是一个数字。
举个栗子，2*2矩阵点乘2*2矩阵，结果是啥？一个数字！n个2*2矩阵点乘2*2矩阵，结果是啥？拼接起来是一个一维向量。

第六个层 fc_1:

卷积核6*6*256*4096，输出为一维向量，4096个元素。
加上ReLU，尺寸不变

第七个层 fc_2:

输出为一维向量，4096个元素。
加上ReLU，尺寸不变

第七个层和第六个层元素个数一样，第七个层是不是有点多余？
那当然不是啦，虽然表面上元素个数一样。但是，其中有权重、有偏差、有反向传播，第七个层还是有发挥作用的！

第8个层 fc_3:

输出为一维向量，1000个元素。最后一层用了softmax，输出为1000个种类的各类概率值.

这里怎么实现4096到1000的转换？都是一维的。那么就要从另一个角度来说了。全连接层的每一个结点都与上一层的所有结点相连，所以这里输出的向量元素个数是取决于全连接层节点个数，而不是上一层节点个数。

关于softmax，它就是一个归一化函数，参考链接：
https://blog.csdn.net/u012160285/article/details/69229342#reply

二、评价部分

1) AlexNet使用ReLU代替了Sigmoid,其能更快的训练,同时解决sigmoid在训练较深的网络中出现的梯度消失,或者说梯度弥散的问题。
激活函数的主要作用是引入了非线性，不太懂的可以参考链接：
https://www.zhihu.com/question/22334626
各个激活函数介绍及梯度消失及梯度弥散可参考链接：
http://www.360doc.com/content/17/1102/21/1489589_700400500.shtml，建议直接看第5点

2) 随机dropout一些神经元,以避免过拟合,

3) 在以前的CNN中普遍使用平均池化层average pooling, AlexNet全部使用最大池化层 max pooling, 避免了平均池化层的模糊化的效果,并且步长比池化的核的尺寸小,这样池化层的输出之间有重叠,提升了特征的丰富性.

4)提出LRN层，局部响应归一化,对局部神经元创建了竞争的机制,使得其中响应较大的值变得更大,并抑制反馈较小的. （强者更强，弱者更弱）
虽然看网上大家对LRN层的评价都不高，但还是给出一个参考链接：
https://blog.csdn.net/searobbers_duck/article/details/51645941

5）使用了gpu加速神经网络的训练

6）使用数据增强的方法缓解过拟合现象.
数据增强是扩充了样本集，参考链接：
https://www.cnblogs.com/zhonghuasong/p/7256498.html
(个人觉得，GAN也是数据增强的一种方式)

因为我也不是很懂，所以在学习过程中也是查阅各种资料，觉得讲得比较好的链接都附了上来。下一步是弄弄代码吧~

AlexNet_原理详细

Python 爬虫：Spring Boot 反爬虫的成功案例

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

VMware+Ubuntu安裝詳解

心情日誌2017.11.28

can't use subversion command line client : svn 解決辦法

圖像處理研究團隊/期刊/會議彙總（不定期更新中...）

HRNET使用過程中的問題記錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結