[计算机视觉论文速递] 2018-04-03

通知:这篇文章有9篇论文速递信息,涉及人脸、目标检测、显著性目标检测和图像分割等方向

往期回顾

TensorFlow.js人脸识别—玩转吃豆豆小游戏

[计算机视觉论文速递] 2018-03-31

YOLOv3:你一定不能错过

Face

[1]《Learning to Anonymize Faces for Privacy Preserving Action Detection》

Abstract:人们越来越担心计算机视觉设备通过录制不需要的视频会侵犯用户的隐私。一方面,我们希望相机系统/机器人能够通过了解其视频来识别重要事件并帮助人类日常生活,但另一方面,我们也希望确保它们不会侵犯人们的隐私。在本文中,我们提出了一种新的原理方法来学习视频面部匿名者。(1)视频匿名处理器修改原始视频以移除隐私敏感信息(即人脸),同时仍尝试最大化空间动作检测性能,(2)试图从这种匿名视频中提取隐私敏感信息的鉴别器。最终的结果是一个视频匿名器,它执行像素级修改以匿名每个人的脸部,而对动作检测性能的影响最小。与传统人工制作的视频/脸部匿名化方法相比,我们通过实验证实了我们方法的优势,这些方法包括掩蔽,模糊和噪声添加。打开下述github链接,可以查看演示视频的项目页面以及更多结果。

arXiv:https://arxiv.org/abs/1803.11556

github:https://jason718.github.io/project/privacy/main.html

[计算机视觉论文速递] 2018-04-03

[2]《Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition》

CVPR 2018

Abstract:本文提出了一种编码器 - 解码器网络,用于从单个二维图像中分离三维人脸重建过程中的形状特征,从而可以同时完成重建精确的三维人脸形状和学习识别形状特征的任务。与现有的三维人脸重建方法不同,我们提出的方法直接从单个二维图像中回归密集的三维人脸形状,并基于复合三维人脸形状模型明确地分别处理三维人脸形状中的身份和残差(即非同一性)潜在的表示。我们针对所提出的网络设计了训练过程,其具有测量脸部识别误差和3D脸部形状重建误差的联合损失。为了构建训练数据,我们开发了一种将3D形变模型(3DMM)拟合到对象的多个2D图像的方法。 MICC,BU3DFE,LFW和YTF数据库已经完成了全面的实验。结果表明,我们的方法扩展了3DMM的能力,以捕捉判别形状特征和面部细节,因此在3D人脸重建精度和人脸识别精度方面都优于现有方法。

arXiv:https://arxiv.org/abs/1803.11366

[3]《Two-Stream Neural Networks for Tampered Face Detection》

Abstract:我们提出了一个人脸篡改检测的双流网络。 我们训练GoogLeNet以检测人脸分类流中的篡改伪影,并训练基于补丁的三重网络,以利用捕获本地噪声残留和相机特性的特征作为第二流。 此外,我们使用两个不同的在线人脸交换应用程序来创建一个由2010年篡改图像组成的新数据集,每个图像包含一个篡改的脸部。 我们在新收集的数据集上评估拟议的双流网络。 实验结果证明了我们方法的有效性。

arXiv:https://arxiv.org/abs/1803.11276

目标检测

[4]《Scalable Deep Learning Logo Detection》

Abstract:现有的标识检测方法通常会考虑少量的标识类和每个类的有限图像,而且需要单调乏味的对象边界框注释,因此无法扩展到真实世界的动态应用程序。在这项工作中,我们通过探索网络数据学习原理来解决这些挑战,而无需详尽的手动标记。具体来说,我们提出了一种新颖的增量学习方法,称为可扩展标识自我协同学习(SL-2),能够自动自发现噪声网络数据中的信息量训练图像,以逐步提高跨模型协同学习的模型能力方式。此外,我们通过自动网络数据收集和处理方法引入非常大的(2,190,757幅194个徽标类的图像)徽标数据集“WebLogo-2M”。广泛的比较评估证明了所提出的SL ^ 2方法优于最先进的强和弱监督检测模型和当代网络数据学习方法的优越性。

arXiv:https://arxiv.org/abs/1803.11417

[5]《Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation》

CVPR 2018

Abstract:我们可以在没有实例级注释的情况下检测各种图像域中的公共对象吗?在本文中,我们提出了一个新的任务框架,跨域弱监督对象检测,解决了这个问题。对于本文,我们可以访问源域(例如自然图像)中具有实例级注释的图像以及目标域(例如水彩)中具有图像级注释的图像。另外,目标域中要检测的类是源域中的所有类或其子集。从源域上预先训练好的完全监督对象检测器开始,我们通过在两种人工和自动生成的样本上微调检测器来提出两步渐进域自适应技术。我们在新收集的包含三个图像域的数据集上测试了我们的方法,与最佳性能基线相比,平均平均精度(mAP)方面提高了约5至20个百分点。

arXiv:https://arxiv.org/abs/1803.11365

github:https://naoto0804.github.io/cross_domain_detection/

[6]《Task-Driven Super Resolution: Object Detection in Low-resolution Images》

Abstract:我们考虑图像超分辨率(SR)如何在低分辨率图像中为物体检测任务做出贡献。 直观上,SR对物体检测任务产生积极影响。 虽然以前的一些作品表明这种直觉是正确的,但SR和探测器在这些作品中都是独立优化的。 本文提出了一种新的框架来训练深度神经网络,其中SR子网络通过与传统检测损失的折衷明确地将检测损失纳入其训练目标中。 这种端到端的培训程序使我们能够训练用于任何可微分探测器的SR预处理。 我们证明,我们的任务驱动SR能够持续显着提高低分辨率图像上物体检测器对各种条件和缩放因子的准确性。

arXiv:https://arxiv.org/abs/1803.11316

显著目标检测

[7]《Contrast-Oriented Deep Neural Networks for Salient Object Detection》

Abstract:深卷积神经网络已成为最近突破显著物体检测的关键因素。然而,现有的基于CNN的方法基于patch方式(区域方式)训练和推理或完全卷积网络。由于严重的存储和重叠补丁之间的计算冗余,前一类中的方法通常是耗时的。为了克服这个缺陷,第二类中的方法试图将原始输入图像直接映射到单个网络正向通道中的预测密集显著图。虽然效率很高,但是这些方法检测不同尺度的显著对象或弱语义信息的显著区域是非常困难的。在本文中,我们开发了混合对比度导向的深度神经网络来克服上述限制。我们每个深层网络都由两个互补的组件组成,包括用于密集预测的完全卷积流和用于稀疏显著性推断的段级空间池流。我们进一步提出了一个注意模块,该模块可以学习用于融合来自这两个流的两个显著性预测的权重图。定制的替代方案旨在通过对预先训练的基线模型进行微调来训练这些深度网络。最后,一个定制的完全连接的CRF模型包含了一个显著的轮廓特征嵌入,可以作为后处理步骤选择性地应用于改善这两个流的融合结果中的空间相干性和轮廓定位。在六个基准数据集上的大量实验表明,我们提出的模型在所有流行的评估指标方面都可以显著优于现有技术水平。

arXiv:https://arxiv.org/abs/1803.11395

图像分割

[8]《Predicting Future Instance Segmentations by Forecasting Convolutional Features》

Abstract:预测未来事件是实现智能行为的重要先决条件。 视频预测已被研究作为实现这一目标的代理任务。 最近的研究表明,为了预测未来帧的语义分割,预测语义层面比预测RGB帧更有效,然后对这些帧进行分段。 在本文中,我们考虑未来实例分割中更具挑战性的问题,它将细分出单独的对象。 为了处理每个图像的不同数量的输出标签,我们在Mask R-CNN实例分割模型的固定大小的卷积特征的空间中开发了预测模型。 我们将Mask R-CNN的“检测头”应用于预测特征,以产生未来帧的实例分割。 实验表明,这种方法明显改善了基于光流的基线。

arXiv:https://arxiv.org/abs/1803.11496

[9]《Joint Person Segmentation and Identification in Synchronized First- and Third-person Videos》

Abstract:在摄像机变得越来越普遍的世界中,公共场所中的场景通常由多种类型的摄像机(包括监控摄像机和可穿戴摄像机)从多个角度捕获。一个重要的问题是如何通过查找它们之间的连接来组织这些异构的视频集合,例如识别出现在视频中的人们之间的通用对应关系以及佩戴相机。在本文中,我们考虑了不同类型的多个摄像机观察涉及多个人的场景的场景,并且我们希望解决两个具体的相关问题:(1)给定场景的两个或更多个同步的第三人视频,产生(2)给定一个或多个同步的第三人称视频以及第一人称视频的第一人视频由可穿戴相机拍摄的人员视频,细分并识别第三方视频中的相机佩戴者。与以往需要地面真实边界框估计对应关系的工作不同,我们共同执行人员分割和识别。我们发现同时解决这两个问题是互惠的,因为更好的细粒度分割使我们能够更好地执行视图间的匹配,并且使用来自多个视图的信息有助于我们执行更精确的分割。我们评估了我们在从多个可穿戴相机捕获的具有挑战性的数据集上评估我们的方法,并且表明我们提出的方法在人物分割和识别方面的表现明显优于现有技术。

arXiv:https://arxiv.org/abs/1803.11217

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章