【阅读笔记】Fully Convolutional Networks for Semantic Segmentation

论文翻译:https://www.cnblogs.com/xuanxufeng/p/6249834.html

比较不错的论文解读:https://blog.csdn.net/a8039974/article/details/78432832

论文干了啥?

简单来说,过去的神经网络最后把整张图给算成了一个特征向量。像AlexNet就是算成了一个1000*1的向量,对应这张图是某个类别的概率,所以可以通过np.argmax()得到最有可能的分类;而全卷积则是把图片转换为一个矩阵,或者说一张“概率图”,所以我们可以找到其上概率最大的像素,它对应目标(猫,狗)的位置。

 

如何做到的?

将传统网络,例如AlexNet最后的全连接层变成卷积层,这个卷积层的任务应该就是把原本已经是“长方体”的矩阵变成一个单层的矩阵。

下采样原理:对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像,当然s应该是M和N的公约数才行,如果考虑的是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值:

上采样原理:图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

 

Shift-and-stitch是什么?

推荐文章:https://www.jianshu.com/p/e534e2be5d7d

是从coarse outputs(粗糙输出)到dense predictions(稠密预测)的一种trick。

他的实现有三步:

1.将图像向右下方移动(x,y)个单位,x=0,1,...,f-1; y=0,1,...,f-1. 获得f^2个图片;

2.将f^2个输入进行处理,获得f^2个输出;

3.进行stitch,这一步可参考推荐文章最后的图片。

 

上采样的方式?

推荐文章:https://blog.csdn.net/nijiayan123/article/details/79416764

简单来说就是上采样就是通过补位来把图片变大;这里作者为了防止细节丢失,将除了第五层之外的三四层都参与上采样。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章