alexnet笔记(ImageNet Classification with Deep Convolutional Neural Networks)

笔记一定要在看过paper的基础上再学习,切记!!!
我建议paper看至少两遍吧,我都是这样做的,每一遍都有不同的收获~


之前学习这篇paper的时候在有道云笔记里就做了笔记,不想再写一遍啦,直接附上笔记分享地址

paper下载地址


还是写了一遍,当然内容不大相同啦,建议都看看,加深印象哈哈


摘要:
6千万参数,65万神经元
5个卷积层(其中一些层后面跟着pooling层)+ 3层全连接层(其中最后一层是1000路的softmax层)
ReLU的使用(非饱和)
GPU的使用(加速)
dropout的使用(正则化方法)
15.3%的top-5测试集错误率


1 介绍:
大数据集ImageNet(15000000张图片,22000个类别)
优化了GPU对2D卷积的实现
深度很重要


2 数据集:
训练集(120万张图片)
验证集(5万张图片)
测试集(15万张图片)
图片大小是256x256
只对图片像素进行了零均值化处理


3 结构:
1)ReLU(非饱和、非线性)收敛速度比tanh快6倍
2)两块GPU(GTX 580 3GB),只在第三层时候交叉
3)局部相应标准化(有一个稍微复杂点的公式,有几个需要用验证集训练出来的超参数)
4)交叉的pooling层(核大小是3x3,步长是2)
5)整体结构:局部相应标准化层(LRN层)只在第1,2卷积层之后,maxpooling层在LRN层和第5卷积层之后,ReLU在每一层都用到,直接看下图比较清楚。

这里写图片描述


4 降低过拟合:
论文用到两个主要的方法
1)数据增强
第一种方式是:从256x256的图片中提取224x224的小patch,并水平翻转,这样训练集就变成原来的2048倍。测试时,从四个角和中心提取224x224的小patch,并水平翻转,对这10个图片的输出结果取平均做出最终的预测。
第二种方式是:调整训练集图片RGB通道的亮度(PCA)
2)dropout(0.5)分享权重,降低神经元的互适应性,测试时,所有神经元都用上,输出乘以0.5。在全连接层的前两层用dropout


5 学习的细节:
随机梯度下降:batch size = 128 momentum = 0.9 weight decay = 0.0005
权重初始化:N(0,0.01)
第2,4,5卷积层和全连接层的偏置初始化为常数1
其他层的偏置初始化为常数0
学习率初始化为0.01,当验证集的错误率不再增加时,学习率除以10
对120万训练集图片,一共训练了90遍


6 结果:
这一部分没什么可说的,就是和之前的一些方法比较以及model ensemble的非常棒的效果


7 讨论:
深度很重要
为了简化实验,我们没有用非监督来预训练,但我们预期这样会产生更好的结果
网络更大训练时间更长时,效果也会提升

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章