1、RePr: Improved Training of Convolutional Filters
作者:Aaditya Prakash, James Storer, Dinei Florencio, Cha Zhang
论文链接:https://arxiv.org/abs/1811.07275
简要说明:针对卷积神经网络的训练方法,方法比较简单,文章通过大量的分析和实验,验证了提出的训练方法非常有效。
主要思路:新的训练方法RePr,训练过程先训练整个网络,根据metric drop掉30%的filter,再训练剩下的网络,再把drop的filter拿回来,用于现有filters正交的方式初始化。迭代这个过程N次。
算法中最重要的其实这个metric,即如何选出需要drop的filters。
文章写的很明白,一个layer的多个卷积核可以用一个matrix表示,也就是 ,先对归一化,再与自己的转置相乘得到 ,这是一个 大小的matrix,第i行表示其他filter对第i个filter的projection,可以看成是相关性,如果是正交性的越大,那么这个值就越小,一行的数值之和越小,说明其他filter与这个filter相关性越低。因此可以通过这个sum来对filter进行rank。
同时文章还说明了,计算这个metric是在一个layer内,但rank是在所有layer进行的,目的是为了不让layer这个因数影响filter的rank,避开layer的差异性,同时也不引入过多的超参。
待续...