[计算机视觉论文速递] 2018-04-17

通知:这篇文章有7篇论文速递信息,涉及人脸识别、人脸对齐、目标检测、语义分割、实例分割和视频分割等方向

Face

[1]《Towards Improved Cartoon Face Detection and Recognition Systems》

[计算机视觉论文速递] 2018-04-17

Abstract:鉴于近年来人脸检测和识别技术取得重大进展,我们想测试他们能否为卡通人脸工作 - 这一领域目前尚未开发,主要是由于缺乏丰富的数据集和传统方法的失败在这些上。在本文中,我们采用各种最先进的深度学习框架来检测和识别卡通人物的脸部,并提出一种新的卡通人脸识别方法。对于人脸检测,我们的工作证明了多任务级联卷积网络(MTCNN)架构的有效性,并将其与其他基准方法进行了对比。对于人脸识别,我们提出了两种基于特征的技术:(i)结合Inception v3网络的特征学习能力和支持向量机(SVM)的特征识别能力的归纳转移方法,(ii)提出的混合卷积神经网络(HCNN)的识别框架,通过融合像素值和15个手动定位面部关键点进行训练。所有的方法都在 wild 卡通面孔(IIIT-CFW)数据库中进行评估。我们使用多个输入约束条件下的几个度量标准来详细分析模型的性能。实验表明,基于MTCNN的模型相对于现有技术的检测方法在真阳性率,假阳性率和假阴性率上分别获得3.97%,1.19%和2.78%的相应增益,而识别模型在F分数方面超过了最先进的水平。 Inception v3 + SVM识别模型还为卡通性别识别的任务建立了新的基准F评分0.910。我们还引入了一个小型数据库,其中包含属于IIIT-CFW数据库中50位公众人物的卡通人脸的15个关键点的位置座标。

arXiv:https://arxiv.org/abs/1804.01753

注:漫画人物目标检测,因崔斯汀~

[2]《Face Alignment in Full Pose Range: A 3D Total Solution》

IEEE TPAMI 2017

Abstract:面部对齐,将人脸模型拟合到图像并提取面部像素的语义含义,一直是计算机视觉中的一个重要话题。但是,大多数算法都是针对面向中小型人脸(偏航角度小于45度)的人脸进行设计的,这种方法缺乏将大型人脸对齐至90度的能力。挑战有三方面。首先,常用的关键点(landmark)人脸模型假定所有的关键点都是可见的,因此不适用于大型姿势。其次,从正面视图到配置文件视图,大型姿势的脸部外观变化更为剧烈。第三,由于不可见的landmark必须被猜测,因此以大姿势标记landmark非常具有挑战性。在本文中,我们建议在称为3D稠密面对齐(3DDFA)的新对齐框架中处理这三个挑战,其中通过级联卷积神经网络将稠密3D可变形模型(3DMM)拟合到图像。我们还利用3D信息在剖面视图中合成人脸图像,以提供丰富的训练样本。在具有挑战性的AFLW数据库上的实验表明,所提出的方法比现有技术的方法取得显著的改进。

arXiv:https://arxiv.org/abs/1804.01005

目标检测

[3]《Transferring Common-Sense Knowledge for Object Detection》

Abstract:我们提出将源类别中的常识知识(common-sense)转换为可扩展对象检测的目标类别的想法。 在我们的设置中,源类别的训练数据具有边界框注释,而针对目标类别的训练数据仅具有图像级别注释。 目前最先进的方法着重于图像级视觉或语义相似性,以将在源类别上训练的检测器适应新的目标类别。 相反,我们的关键思想是(i)不是在图像层面使用相似性,而是在区域层面使用相似性,以及(ii)利用更丰富的常识(基于属性,空间等)来指导 该算法用于学习正确的检测。 我们从现成的知识库中自动获取这些常识提示,无需额外的人力。 在具有挑战性的MS COCO数据集上,我们发现使用常识知识可以大大提高现有传输学习基线的检测性能。

arXiv:https://arxiv.org/abs/1804.01077

图像分割

[4]《A Pyramid CNN for Dense-Leaves Segmentation》

Abstract:在茂密树叶中重叠叶片的自动检测和分割可能是困难的任务,特别是对于具有强烈纹理和高遮挡的叶子。 我们呈现密集叶,这是一种带有ground truth 分割标签的图像数据集,可用于训练和量化野外叶片分割算法。 我们还提出了一种具有多尺度预测的金字塔卷积神经网络,用于检测和区分来自内部纹理的叶边界。 使用这些检测到的边界,通过基于分水岭的算法来估计个体叶周围的闭合轮廓边界。 结果是一个密集叶片的实例分段器。 获得对于密集叶子中的叶子的有希望的分割结果。

arXiv:https://arxiv.org/abs/1804.01646

[5]《Normalized Cut Loss for Weakly-supervised CNN Segmentation》

CVPR 2018

Abstract:最近的语义分割方法训练深度卷积神经网络,其中带有完全注释的面具需要像素精度以进行高质量的训练。常见的弱监督方法使用标准的交互式分割方法作为预处理从部分输入(例如涂鸦或种子)生成完整的掩模。但是,由于标准损失函数(例如交叉熵)不能区分种子和可能错误标记的其他像素,因此这种掩模中的错误导致较差的训练。受半监督学习的一般思想的启发,我们通过一种新的原理性损失函数来解决这些问题,该函数用“浅”分割中的标准标准来评估网络输出,例如,归一化切割。与以前的工作不同,我们损失的交叉熵部分仅评估标签已知的种子,而归一化切割软评估所有像素的一致性。我们专注于通过快速双边滤波在线性时间高效实现密集高斯核的规范化切割损失。我们的归一化切割损失分割方法使得弱监督训练的质量显着接近完全监督的方法。

arXiv:https://arxiv.org/abs/1804.01346

[6]《Weakly Supervised Instance Segmentation using Class Peak Response》

CVPR 2018

[计算机视觉论文速递] 2018-04-17

[计算机视觉论文速递] 2018-04-17

[计算机视觉论文速递] 2018-04-17
Abstract:现在还没有发现使用图像级标签进行弱监督实例分割,大多还是利用代价高的像素级掩模。在本文中,我们通过利用类别峰值响应(class peak response)来启用实例掩码提取的分类网络来解决这个具有挑战性的问题。仅使用图像标签监督,以完全卷积方式的CNN分类器可以生成类别响应map,该图指定每个图像位置处的分类置信度。我们观察到,类别响应地图中的局部最大值,即峰值通常对应于每个实例内存在的强烈视觉线索。受此启发,我们首先设计了一个过程来刺激从类别响应map出现的峰值。出现的峰值然后被反向传播并且有效地映射到每个对象实例的高度信息区域,例如实例边界。我们将从类峰值响应生成的上述地图称为峰值响应图(PRM)。 PRM提供了详细的实例级表示,它允许即使使用一些现成的方法也可以提取实例掩码。据我们所知,我们首次报告了具有挑战性的图像级监督实例分割任务的结果。大量的实验表明,我们的方法还提高了弱监督的逐点定位以及语义分割性能,并报告了流行基准测试中的最新结果,包括PASCAL VOC 2012和MS COCO。

arXiv:https://arxiv.org/abs/1804.00880

homopage(含源码):http://yzhou.work/PRM/

注:提出了PRM(Peak Response Maps)!感觉很亮眼!

视频分割

[7]《Dynamic Video Segmentation Network》

CVPR 2018

Abstract:在本文中,我们提出了一个动态视频分割网络(DVSNet)的详细设计,用于快速高效的语义视频分割。 DVSNet由两个卷积神经网络组成:分割网络和流动网络。前者产生高度准确的语义分割,但更深入和更慢。后者比前者快得多,但其输出需要进一步处理以产生不太准确的语义分割。我们探索使用决策网络来根据称为预期置信度分数的度量自适应地将不同的帧区域分配给不同的网络。具有较高预期置信度得分的帧区域遍历流网络。具有较低预期置信度得分的帧区域必须通过分割网络。我们已经广泛地对DVSNet的各种配置进行了实验,并针对所提出的决策网络研究了许多变体。实验结果表明,我们的DVSNet能够在Cityscape数据集上以19.8 fps达到70.4%mIoU。 DVSNet的高速版本能够在相同的数据集上提供30.4的fps和63.2%的mIoU。 DVSNet还可以减少高达95%的计算工作量。

arXiv:https://arxiv.org/abs/1804.00931

注:视频分割,真的很有意义!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章