Spatial Transformer Networks

原創

2018-11-04 07:56

这篇论文自己也理解的不是很深，把自己的当时记的笔记拿出来和大家分享一下，有什么错误的地方希望大家指正。（第一次写CSDN博客，跪求各位大佬多多指点）
一、abstract1

CNN的池化操作只有在很深的层次上才具有良好的形变容忍能力，而且能力有限，需要构建很深网络结构才能达到目的，这意味着网络难以训练，容易过拟合。与池化层(接收字段是固定的和局部的)不同，空间转换器模块是一种动态机制，用以替代池化层，可以通过为每个输入样本生成一个适当的转换参数，从而积极地对图像进行空间转化。变换是在在整个feature map(非局部)上执行转换，可以包括缩放、裁剪、旋转以及非刚性变形。这使得包括空间转换器在内的网络不仅可以选择最相关的图像区域(注意)，还可以将这些区域转换为规范的、预期的姿态，以简化后面网络的识别。

问题：空间变换怎么实现梯度反传和训练

二、网络结构
从U输出的特征输入Localsation net 预测出变换参数θ, 构造从U到V的变换函数（矩阵）简化问题：只考虑单通道特征图输入，进行单种变换。将特征图输入Localisation network ,经过隐藏层预测空间转换参数，即每组参数都是基于特定的输入产生的。然后用预测的参数构建一个采样网格（决定输入图中哪些点需要被采样的点集），采样器利用输入特征图和采样网格的点采样出转换后的图像。

优点：通过为卷积神经网络提供确切的空间变换，空间变换机制解决了上述问题，它拥有3个属性。
1.模块化：只需要进行微小的调整，就可以将空间变换网络插入到现有体系结构的任何地方。
2.可区分性：可以使用反向传播算法进行训练，允许对所插入的模型进行端到端的训练。
3.动态性：在每个输入样本的特征映射上执行主动空间变换，而池化层则是对所有输入样本进行操作。

三、每部分详细结构

3.1 Localisation Nework

作用，将特征图输入，预测一组变换参数，参数个数依赖于变换类型，比如仿射变换需要六个参数。

3.2 Parameterised Sampling Grid 网格生成器的作用是输出一个参数化的采样网格，这是一组点集，即输入映射经过采样产生期望的转换输出。具体来说，网格生成器首先创建与输入图像U（格式为（H，W））相同大小的归一化网格，即覆盖整个输入特征映射的一个索引集（xt，yt）映射（上标t代表输出特征映射的目标座标）。由于我们对这个网格做了仿射变换，并且想要使用变换，我们继续在座标矢量上添加一行进行计算。最后，我们将6个参数θ塑造为一个2*3矩阵，并执行下面的乘法运算，就会得到我们所需要的参数化采样网格。

把目标图像的座标放在左边的原因：这样可以保证目标图像上的每个点都能和原图像对应起来，不会出现座标缺失的情况。
可微分的图像采样网络由于双线性插值是可微的，因此非常适用于空间变换网络。通过输入特征映射和参数化采样网格，我们进行双线性采样并获得形状为（H’，W’，C’）的输出特征映射V。这就意味着，我们可以通过指定采样网格的形状，来执行下采样和上采样。我们绝对不仅限于双线性采样，还可以使用其他的采样内核，但重要的一点是：它必须是可微的，以便允许损失梯度一直流回的定位网络。

效果展示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spatial Transformer Networks

[软件工具百科] 互联网资源历史快照归档站点与数字图书馆

网易面试：SpringBoot如何开启虚拟线程？

杭州的 IT 崩盘了么？

程序员常见的文本查看工具

VS2022 解决方案打不开 .NET Framework 4.0 、 4.5 等老项目

Vue3 运行可以，build 打包发布报错，app.config.globalProperties 用法坑

既然测试也要求写代码，那干脆让开发兼任测试不就好了吗？

ITSM落地经验之建设蓝图规划

PDF 补丁丁 1.0.2 版更新

奇怪！应用的日志呢？？

PCL 點雲庫學習指南

從 github 下載Robo Ware Studio

Spatial Transformer Networks

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結