【AI视野·今日CV 计算机视觉论文速览 第175期】Fri, 10 Jan 2020

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 10 Jan 2020
Totally 27 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

📚**基於单目视频的循环深度估计, 将三种不同类型的深度估计(监督深度预测,自我监督深度预测和自我监督深度完成)放入一个通用框架。将相应的网络与卷积LSTM集成在一起利用递归网络实现了高性能深度估计。(from ETH Zurich )
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
code: www.github.com/wvangansbeke/Recurrent-Depth-Estimation

📚基于超图谱分析的点云处理, 引入了基于张量的方法来估计点云的超图谱元素和频率稀疏,建立了超图频率与结构特征间的关系。(from 待定)
在这里插入图片描述在这里插入图片描述

📚高性能的图像编码压缩方法, 通过利用压缩模型和生成模型,提出了一种新颖的图像编码框架,以共同支持机器视觉和人类感知任务。给定输入图像,首先应用特征分析,然后使用生成模型对特征和附加参考像素执行图像重建,在该工作中提取紧凑的边缘图,以可扩展的方式将两种视觉连接起来。紧凑的边缘图用作机器视觉任务的基本层,而参考像素则充当一种增强层,以保证人类视觉的信号保真度。(from 北大)
在这里插入图片描述code:https://williamyang1991.github.io/projects/VCM-Face/

📚****P-RSDet极座标下的目标检测器, 提出了一种新颖的以极座标为模型的无锚检测器来检测遥感图像的对象,这使得定向输出形式的获取与水平形式的获取一样简单。这一称为极座标遥感物体检测器(P-RSDet)的模型以每个物体的中心点为极点,以水平正方向为极轴来建立极座标系。可以将一个物体的检测视为水平和定向包围盒的一个极半径和两个极角的预测。(from 中科院空天信息创新研究院)
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
dataset: DOTA, UCAS-AOD and NWPU VHR-10 datasets

📚**Neural Data Server, 为迁移学习目标领域推荐最适合的预训练数据,以便适配目标领域的少量用户数据(from 多伦多大学)
在这里插入图片描述
在这里插入图片描述
service:http://aidemos.cs.toronto.edu/nds/

📚***通过元学习的快速适应图像超分辨率方法图像去噪方法, (from 汉阳大学 韩国)
在这里插入图片描述
在这里插入图片描述

📚****Learning to Zoom-in via Learning to Zoom-out通过生成和退化过程学习实现超分辨, 提出一种根本不需要LR-HR图像配对和对准并直接使用真实图像的方法,首先训练降级生成网络以生成逼真的LR图像,更重要的是捕获其分布(即学习缩小)。假设已经消除了高低分辨率间的差异,在学习降级自适应SR网络(即学习放大)的同时将生成的数据与实际数据之间的差异最小化。所提出的未配对方法即使在更偏爱配对学习方法的数据集中也能在真实世界的图像上获得良好的结果。(from 阿德莱德大学 澳大利亚)

在这里插入图片描述
在这里插入图片描述

More reading:
📚生成树形状的点云数据集, (from 重庆大学)
在这里插入图片描述在这里插入图片描述
code:https://github.com/liujiboy/TreePointCloud.git.

📚DeeperForensics-1.0, 人脸伪造识别库(from 南洋理工 商汤)
在这里插入图片描述
在这里插入图片描述
Project page: https://liming-jiang.com/projects/DrF1/DrF1.html

📚**手绘到图像的深度学习 综述, (from 北邮)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Homepage: http://www.pengxu.net,
GitHub: https://github.com/PengBoXiangShang


一个通过蜡烛图预测交易的方法:https://github.com/pecu/FinancialVision


Daily Computer Vision Papers

Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias
Authors Krishna Kumar Singh, Dhruv Mahajan, Kristen Grauman, Yong Jae Lee, Matt Feiszli, Deepti Ghadiyaram
现有模型通常利用对象及其上下文之间的共现来提高识别准确性。但是,强烈依赖上下文可能会使模型具有普遍性,尤其是在缺少典型的共现模式时。这项工作的重点是解决此类上下文偏差,以提高学习到的特征表示的鲁棒性。我们的目标是在没有上下文的情况下准确识别类别,而与上下文同时出现时则不影响性能。我们的主要思想是从类别的共现上下文中解关联类别的要素表示。我们通过学习一个特征子空间来实现此目的,该子空间明确表示在没有上下文的情况下出现的类别,同时沿着表示类别和上下文的联合特征子空间。我们非常简单而有效的方法可扩展到两个多标签任务对象和属性分类。在4个具有挑战性的数据集上,我们证明了我们的方法在减少上下文偏差方面的有效性。

Robust Facial Landmark Detection via Aggregation on Geometrically Manipulated Faces
Authors Seyed Mehdi Iranmanesh, Ali Dabouei, Sobhan Soleymani, Hadi Kazemi, Nasser M. Nasrabadi
在这项工作中,我们提出了一种实用的方法来解决人脸界标检测问题。所提出的方法可以在形状变形丰富的情况下处理较大的形状和外观变化。为了处理形状变化,我们为我们的方法配备了经过处理的人脸图像集合。所提出的框架仅使用一个给定的面部图像来生成不同的被操纵的面部。该方法利用了这样一个事实,即在输入域中进行细微但精心设计的几何操作可能会欺骗深层面部识别模型。我们提出了三种不同的方法来生成可操作的面孔,其中两种方法通过对抗性攻击执行操作,另一种使用已知的变换。汇总操作过的面部可提供一种更强大的界标检测方法,该方法能够捕获面部形状的更重要的变形和变化。与基准数据集AFLW,300 W和COFW的最新方法相比,我们的方法证明了它的优越性。

Unpaired Multi-modal Segmentation via Knowledge Distillation
Authors Qi Dou, Quande Liu, Pheng Ann Heng, Ben Glocker
多模态学习通常是利用包含模态特定层和共享层的网络体系结构,利用不同模态的共同注册图像来执行的。我们提出了一种用于不配对跨模态图像分割的新颖学习方案,其高度紧凑的架构可实现出色的分割精度。在我们的方法中,我们通过共享CT和MRI上的所有卷积核来大量重用网络参数,并且仅采用模态特定的内部归一化层来计算各自的统计信息。为了有效地训练这种高度紧凑的模型,我们通过显式限制我们在模式之间得出的预测分布的KL散度,引入了一个受知识蒸馏启发的新颖损失项。我们已经在两个多类分割问题上进行了广泛的验证,这些问题是心脏结构分割和腹腔器官分割。利用不同的网络设置(即2D扩张网络和3D U网)来研究我们方法的一般功效。这两项任务的实验结果表明,我们新颖的多模式学习方案始终优於单模式培训和以前的多模式方法。

Compression of convolutional neural networks for high performance imagematching tasks on mobile devices
Authors Roy Miles, Krystian Mikolajczyk
深度神经网络已经通过新的大型多样数据集的出现证明了基于特征的图像匹配的最新性能。但是,在评估这些模型的计算成本,模型大小以及匹配精度的权衡方面,工作很少。本文通过考虑最新的L2Net体系结构来明确解决这些实际约束。我们观察到L2Net架构中的大量冗余,我们通过使用深度可分离层和有效的Tucker分解来利用该冗余。我们证明了这些方法的组合更有效,但仍然牺牲了最高端的准确性。因此,我们提出了卷积深度逐点CDP层,它提供了在标准和深度方向可分离卷积之间进行插值的方法。借助这一提议的层,我们能够在L2Net架构上最多减少8倍的参数数量,将计算复杂度减少13倍,同时在HPatches基准测试的总体精度上牺牲不到1倍。为了进一步说明这种方法的一般性,我们将其应用于SuperPoint模型。我们表明,CDP层可提高准确性,同时使用更少的参数和浮点运算进行推理。

STAViS: Spatio-Temporal AudioVisual Saliency Network
Authors Antigoni Tsiami, Petros Koutras, Petros Maragos
我们介绍STAViS,一种时空视听显着性网络,它将时空视觉和听觉信息相结合,以便有效解决视频中的显着性估计问题。我们的方法采用一个结合了视觉显着性和听觉特征的单一网络,并学会适当地定位声源并融合这两种显着性以获得最终显着性图。该网络已经过设计,端到端培训,并在六个不同的数据库中进行了评估,这些数据库包含各种视频的视听眼睛跟踪数据。我们将我们的方法与8种不同的视觉显着性模型进行了比较。跨数据库的评估结果表明,在大多数情况下,我们的STAViS模型优于仅视觉变量以及其他最新模型。而且,它为所有数据库实现的一致良好的性能表明,它适合于评估野外的显着性。

Virtual to Real adaptation of Pedestrian Detectors for Smart Cities
Authors Luca Ciampi, Nicola Messina, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato
通过计算机视觉进行行人检测是在智慧城市中进行多种应用的基础,例如敏感区域的监视,人身安全,监视和控制人流等。最近,人们对用于执行此类任务的深度学习架构越来越感兴趣。这些算法的关键目标之一是将在训练阶段获得的知识概括为具有各种特征的新场景,并且适当标记的数据集对于实现此目标至关重要。主要问题在于,手动注释数据集通常需要大量人力,这是一项耗时的操作。因此,在这项工作中,我们引入了ViPeD虚拟行人数据集,这是从真实的3D视频游戏收集的一组新合成图像,其中可以利用从图形引擎提取的2D行人位置自动生成标签。我们使用了这个新的合成数据集,训练了先进的计算效率高的卷积神经网络CNN,该网络已准备好安装在智能低功耗设备(如智能相机)中。我们通过使用合成数据对CNN进行微调,并利用混合批监督训练方法来解决从虚拟世界到真实世界的域适应问题。与文献中提供的其他方法相比,在不同的现实世界数据集上进行的广泛实验显示出非常具有竞争力的结果,在文献中,使用实际数据对算法进行了训练。

DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection
Authors Liming Jiang, Wayne Wu, Ren Li, Chen Qian, Chen Change Loy
在本文中,我们介绍了我们正在努力构建用于人脸伪造检测的大型基准程序DeeperForensics 1.0。我们的基准测试代表了迄今为止最大的人脸伪造检测数据集,共有60,000个视频,共1760万帧,是现有同类数据集的10倍。应用广泛的现实世界扰动来获得更具挑战性的更大规模和更高多样性的基准。我们会仔细收集DeeperForensics 1.0中的所有源视频,并通过新提议的端到端交换框架生成虚假视频。经用户研究验证,生成的视频质量优于现有数据集中的视频。该基准测试具有一个隐藏的测试集,其中包含在人工评估中获得较高欺骗性分数的操纵视频。我们将进一步进行全面的研究,以评估五个代表性的检测基准并对不同的设置进行彻底的分析。我们相信该数据集将有助于现实世界中的伪造品检测研究。

Spherical Image Generation from a Single Normal Field of View Image by Considering Scene Symmetry
Authors Takayuki Hara, Tatsuya Harada
全方位360度拍摄的球形图像可以代表被摄对象的周围环境和空间本身,从而为观看者提供身临其境的体验。由于不需要使用特定的全景相机或从多个方向拍摄图像,因此从单个法线视场生成球形图像NFOV图像非常方便,并且极大地扩展了使用场景,但是,这仍然是一个充满挑战且尚未解决的问题。主要的挑战是控制在生成包括所需的合理球形图像的所有方向的宽区域中涉及的高度自由度。另一方面,场景对称性是球形图像整体结构的基本属性,例如旋转对称性,平面对称性和不对称性。我们提出了一种从单个NFOV图像生成球面图像的方法,并使用场景对称性控制生成区域的自由度。我们将场景对称性参数作为潜在变量合并到条件变分自动编码器中,然后我们了解NFOV图像和场景对称性的球面图像的条件概率。此外,概率密度函数使用神经网络表示,场景对称性通过隐藏变量的循环移位和翻转实现。我们的实验表明,所提出的方法可以生成各种可能的球形图像,从对称到不对称控制。

Objects detection for remote sensing images based on polar coordinates
Authors Lin Zhou, Haoran Wei, Hao Li, Yue Zhang, Xian Sun, Wenzhe Zhao
定向和水平边界框是遥感目标检测领域中的两种典型输出形式。在这种情况下,当前最先进的探测器属于基于锚的方法,并在笛卡尔座标中执行回归任务,这导致定向探测器的设计比水平探测器复杂得多,因为前者通常需要设计更复杂的旋转探测器。锚,旋转联合IOU上的交点和旋转非最大压紧NMS。在本文中,我们提出了一种新颖的以极座标为模型的无锚检测器来检测遥感图像的对象,这使得定向输出形式的获取与水平形式的获取一样简单。我们的模型称为极地遥感物体检测器P RSDet,它以每个物体的中心点为极点,以水平正方向为极轴来建立极座标系。我们的模型可以将一个物体的检测视为水平和定向包围盒的一个极半径和两个极角的预测。 P RSDet以最小的成本实现了两种输出形式的组合。实验表明,我们的P RSDet在水平和原始检测领域的DOTA,UCAS AOD和NWPU VHR 10数据集上均具有竞争优势。

Generative Pseudo-label Refinement for Unsupervised Domain Adaptation
Authors Pietro Morerio, Riccardo Volpi, Ruggero Ragonesi, Vittorio Murino
我们调查并表征了条件生成对抗网络cGAN在其条件标签中针对噪声的固有弹性,并在无监督域自适应UDA的背景下利用了这一事实。在UDA中,可以使用在标记源集上训练的分类器来推断未标记目标集上的伪标记。但是,由于众所周知的域移位问题,这将导致大量错误分类的示例,这可以解释为目标集的地面真相标签中的噪声注入。我们表明,cGAN在某种程度上对这种移位噪声具有鲁棒性。实际上,训练有素的伪标签的cGAN能够过滤此类噪声并生成更干净的目标样本。我们在迭代过程中利用这一发现,其中依次对生成模型和分类器进行联合训练,生成器允许从目标分布中采样更清洁的数据,分类器允许将更好的标签与目标样本相关联,逐步完善目标伪标签。通用基准测试的结果表明,我们的方法与无监督域自适应技术相比具有更好的性能或可比性。

Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach
Authors Yueyu Hu, Shuai Yang, Wenhan Yang, Ling Yu Duan, Jiaying Liu
在过去的几十年中,见证了大数据时代图像和视频编码技术的飞速发展。但是,信号保真度驱动的编码流水线设计限制了现有图像视频编码框架满足机器视觉和人类视觉需求的能力。在本文中,我们通过利用压缩模型和生成模型,提出了一种新颖的图像编码框架,以共同支持机器视觉和人类感知任务。给定输入图像,首先应用特征分析,然后使用生成模型对特征和附加参考像素执行图像重建,在该工作中提取紧凑的边缘图,以可扩展的方式将两种视觉连接起来。紧凑的边缘图用作机器视觉任务的基本层,而参考像素则充当一种增强层,以保证人类视觉的信号保真度。通过引入高级生成模型,我们训练了一个灵活的网络,以从紧凑的特征表示和参考像素重建图像。实验结果证明了我们的框架在人的视觉质量和面部标志检测方面的优越性,这为机器视觉MPEG VCM视频编码的新兴标准化工作提供了有用的证据。

Fast Adaptation to Super-Resolution Networks via Meta-Learning
Authors Seobin Park, Jinsu Yoo, Donghyeon Cho, Jiwon Kim, Tae Hyun Kim
常规的监督超分辨率SR方法是使用大量外部SR数据集进行训练的,但无法利用给定测试图像的理想特性。另一方面,自我监督的SR方法利用测试图像中的内部信息,但是在运行时会遇到计算复杂性。在这项工作中,我们观察到了通过实际利用输入图像提供的附加信息,在不改变传统SR网络架构的情况下进一步提高SISR性能的机会。在训练阶段,我们通过元学习对网络进行训练,因此,网络可以在测试时快速适应任何输入图像。然后,在测试阶段,仅使用给定的低分辨率图像,只需几次迭代即可快速微调此元学习网络的参数。在测试时进行的调整充分利用了自然图像中观察到的斑块递归特性。我们的方法可有效处理未知的SR内核,并可应用于任何现有模型。我们证明了所提出的模型不可知论方法在各种基准SR数据集上不断提高了常规SR网络的性能。

Self-Supervised Fast Adaptation for Denoising via Meta-Learning
Authors Seunghwan Lee, Donghyeon Cho, Jiwon Kim, Tae Hyun Kim
在噪声的某些统计假设下,已引入了最近的自我去噪方法来学习没有真正干净图像的网络参数,并且这些方法可以通过利用来自给定输入的可用信息(即测试时的内部统计信息)来还原图像。但是,自我监督方法尚未与传统的监督降噪方法相结合,后者用大量外部训练样本训练降噪网络。因此,我们提出了一种新的降噪方法,该方法可以通过自我监督将其网络参数调整为给定输入,而无需更改网络体系结构,从而大大优于现有的监督降噪方法。此外,我们提出了一种元学习算法,以使参数可以在测试时快速适应特定输入。我们证明,所提出的方法可以轻松地与最新的去噪网络一起使用,而无需其他参数,并且可以在众多基准数据集上实现最新的性能。

Deep Plastic Surgery: Robust and Controllable Image Editing with Human-Drawn Sketches
Authors Shuai Yang, Zhangyang Wang, Jiaying Liu, Zongming Guo
基于草图的图像编辑旨在根据人类绘制的草图提供的结构信息来合成和修改照片。由于草图很难收集,因此先前的方法主要使用边缘图而不是草图来训练称为基于边缘的模型的模型。但是,草图与边缘贴图显示出很大的结构差异,因此无法使用基于边缘的模型。此外,草图经常显示出不同用户之间的差异,要求更高的通用性和鲁棒性才能使编辑模型起作用。在本文中,我们提出了“深层整形手术”,一种新颖,强大且可控制的图像编辑框架,该框架允许用户使用手绘草图输入交互地编辑图像。我们提出了一种素描改进策略,其灵感来自于艺术家从粗略到精细的绘画过程,我们展示了该策略可以帮助我们的模型很好地适应随意和多样化的素描,而无需实际的素描训练数据。我们的模型还提供了一个细化级别控制参数,使用户可以灵活定义输入草图对于最终输出应考虑的可靠性,在草图真实性和输出逼真度之间取得平衡,因为如果输入草图绘制得不好,这两个目标可能会矛盾。为了实现多级细化,我们引入了一种基于样式的级调节模块,该模块允许在单一网络中针对不同级进行自适应特征表示。大量的实验结果表明,与现有方法相比,我们的方法在改善图像编辑的视觉质量和用户可控制性方面具有优势。

HMANet: Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images
Authors Ruigang Niu
高分辨率VHR航拍图像中的语义分割是遥感图像理解中最具挑战性的任务之一。当前的大多数方法都基于深度卷积神经网络DCNN,因为它具有出色的特征表示能力。具体而言,基于注意力的方法可以有效地捕获远程依存关系,并进一步重构特征图以更好地表示。然而,仅受空间和频道关注的角度以及自我关注机制的巨大计算复杂性的限制,不太可能对每个像素对之间的有效语义相互依赖性进行建模。在这项工作中,我们提出了一个新颖的基于注意力的框架,称为混合多重注意力网络HMANet,可以以更有效和高效的方式从空间,渠道和类别的角度自适应地捕获全局相关性。具体地,嵌入有班级频道注意CCA模块的班级增强注意CAA模块可以用于计算基于类别的相关性并重新校准班级信息。此外,我们引入了一个简单但区域随机的注意力RSA模块,以减少特征冗余并通过区域智能表示提高自我注意机制的效率。 ISPRS Vaihingen和波茨坦基准测试的大量实验结果证明了我们HMANet相对于其他现有方法的有效性和效率。

Semi-supervised Learning via Conditional Rotation Angle Estimation
Authors Hai Ming Xu, Lingqiao Liu, Dong Gong
自我监督学习SlfSL旨在通过精心设计的无人注释的借口任务学习特征表示,在过去几年中取得了令人瞩目的进步。最近,SlfSL还被认为是半监督学习SemSL的有前途的解决方案,因为它提供了利用未标记数据的新范例。通过建议将SlfSL与SemSL结合使用,这项工作进一步探索了这个方向。我们的见解是,可以将SemSL中的预测目标建模为SlfSL目标的预测变量中的潜在因素。对潜在因素进行边际化自然会得出一种新的公式,该公式将这两个学习过程的预测目标结合在一起。通过简单但有效的SlfSL方法旋转角度预测来实现此想法,我们创建了一种新的SemSL方法,称为条件旋转角度估计CRAE。具体而言,CRAE的特点是采用了一个模块,该模块可预测以候选图像类为条件的图像旋转角度。通过实验评估,我们显示出CRAE比结合SlfSL和SemSL的其他现有方法具有更高的性能。为了进一步提高CRAE,我们提出了两个扩展,以加强基本CRAE中SemSL目标和SlfSL目标之间的耦合。我们表明,这导致了一种改进的CRAE方法,可以实现最新的SemSL性能。

A novel tree-structured point cloud dataset for skeletonization algorithm evaluation
Authors Yan Lin, Ji Liu, Jianlin Zhou
从无组织的点云中提取曲线骨架是计算机视觉以及三维数据预处理和可视化的基本任务。从点云中提取骨架的工作量很大。但是缺乏具有地面真实框架的点云标准数据集,使得评估这些算法变得困难。在本文中,我们构建了一个全新的树状点云数据集,其中包括地面真相骨架和点云模型。另外,在带噪声的干净点云,缺少数据的点云,不同密度的点云和密度分布不​​均匀的点云上构建了四种类型的点云。我们首先使用树编辑器来构建树骨架和相应的网格模型。由于隐式表面具有足够的表达力,可以保留复杂分支模型的边缘和细节,因此我们使用隐式表面对三角形网格进行建模。通过隐式表面,虚拟扫描仪将应用于点云采样。最后,考虑到骨架提取中的挑战,我们介绍了构建四种不同类型的点云模型的不同方法。该数据集可用作骨架提取算法的标准数据集。并且,可以通过将地面真实骨骼与所提取的骨骼进行比较来进行骨骼提取算法之间的评估。

Multi-Scale Weight Sharing Network for Image Recognition
Authors Shubhra Aich, Ian Stavness, Yasuhiro Taniguchi, Masaki Yamazaki
在本文中,我们探索了卷积网络中多个尺度上的权重共享的思想。受传统计算机视觉方法的启发,我们在网络的同一层中以不同规模共享卷积核的权重。尽管在卷积网络中多尺度特征聚合和共享在实践中很常见,但是以前的工作都没有解决卷积权重共享的问题。我们在两个异构图像识别数据集ImageNet对象识别和Places365标准场景分类中评估权重分配方案。与基线ResNet相比,我们的共享权重ResNet模型减少了大约25个参数,从而提供了类似的性能。通过在四个附加图像识别数据集Caltech256和Stanford 40 Actions以对象为中心以及SUN397和MIT Inddor67以场景为中心的转移学习实验中进一步验证了共享权重模型。实验结果表明,在更深层网络的原始实现中存在大量冗余,并且还表明朝着增加每个参数的接收场的转变可能会改善未来的卷积网络体系结构。

Learning landmark guided embeddings for animal re-identification
Authors Olga Moskvyak, Frederic Maire, Feras Dayoub, Mahsa Baktashmotlagh
由于不同个体之间的身体标记存在细微变化,并且对野外动物的姿势没有任何限制,因此在图像中重新识别单个动物可能是模棱两可的。人物重新识别是一项类似的任务,已经通过深度卷积神经网络CNN进行了研究,该网络学习了对人像的判别嵌入。但是,由于与个体身份的标记数据集相比,生态数据集的大小相对较小,因此学习个体动物的辨别特征比人的外观更具挑战性。我们建议通过显式地利用身体地标信息来改善嵌入学习。身体界标作为可从单独的身体界标预测变量获得的置信度热图提供给CNN的输入。通过学习重建输入热图的辅助任务,鼓励模型使用热图。身体界标引导特征提取网络学习独特模式的表示及其在身体上的位置。我们在大型综合数据集和小型实际数据集上评估了该方法。我们的方法优于相同的模型,而没有分别在合成数据集和真实数据集上输入26和18的人体界标。该方法对于输入座标中的噪声是鲁棒的,并且可以容忍高达图像大小的10的座标中的误差。

Neural Data Server: A Large-Scale Search Engine for Transfer Learning Data
Authors Xi Yan, David Acuna, Sanja Fidler
事实证明,迁移学习是在缺乏训练数据的领域中训练深度学习模型的成功技术。主要方法是在大型通用数据集(例如ImageNet)上预训练模型,并在目标域上微调其权重。但是,在海量数据集数量不断增加的新时代,选择相关数据进行预训练是一个关键问题。我们引入了神经数据服务器NDS,这是一个大型搜索引擎,用于查找最有用的转移学习数据到目标域。我们的NDS由一个数据服务器组成,该数据服务器为几个大型的流行图像数据集建立索引,并旨在将数据推荐给具有目标应用程序和最终用户的最终用户,该应用程序具有自己的小标签数据集。就像在任何可能为众多用户提供信息的搜索引擎中一样,我们希望数据服务器执行的在线计算最少。数据服务器代表具有更紧凑的专家模型组合的大型数据集,并使用它以低计算量在一系列数据服务器客户端事务中执行数据搜索。我们展示了NDS在各种转移学习场景中的有效性,展示了在几个目标数据集和任务(例如图像分类,对象检测和实例分割)上的最新性能。我们的神经数据服务器可通过以下Web服务获得:

Toward Generalized Clustering through an One-Dimensional Approach
Authors Luciano da F. Costa
在将群集的概念归纳为包含通过一些相对狭窄的桥梁链接到其他群集的群集之后,基于聚结群集(更具体地讲,是将单个链接应用于一维切片),开发了一种检测这些群集之间的分离补丁的方法。从各个特征空间获得。关于点的无簇均匀和正态分布以及一维聚类模型的分析,说明了该方法的潜力,该模型以两个间隔高,密度小的点间隔较小的特征为特征的一维聚类模型。然后,将这种部分聚类方法视为特征选择和聚类识别的一种手段,并针对某些假设情况描述和说明了两种简单但可能有效的相应方法。

Investigating the Impact of Inclusion in Face Recognition Training Data on Individual Face Identification
Authors Chris Dulhanty, Alexander Wong
现代人脸识别系统利用包含数十万特定个人面孔图像的数据集来训练深度卷积神经网络,以学习将任意个人面孔映射到其身份矢量表示的嵌入空间。人脸识别系统1 1和人脸识别1 N任务中人脸识别系统的性能与嵌入空间区分身份的能力直接相关。近来,公众对大规模面部识别训练数据集(例如MS Celeb 1M和MegaFace)的来源和隐私含义进行了广泛的审查,因为许多人不满意其面部被用于训练可以实现大规模监视的双重用途技术。但是,以前没有研究过将个人包含在训练数据中对派生系统识别它们的能力的影响。在这项工作中,我们对ArcFace(一种先进的开放源代码人脸识别系统)进行了大规模审核,该实验使用了超过一百万张分心器图像。我们发现存在于模型训练数据中的个人的1级面部识别准确度为79.71,对于不存在的个人,则为75.73。准确性上的这种适度差异表明,使用深度学习的面部识别系统更适合他们所培训的个人,当人们认为所有主要的开源面部识别训练数据集在收集过程中未获得个人的知情同意时,这会对隐私产生严重影响。

An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal
Authors Sifeng Xia, Kunchangtai Liang, Wenhan Yang, Ling Yu Duan, Jiaying Liu
在本文中,我们研究了由于新兴的MPEG标准化努力而产生的新问题,即用于机器VCM的视频编码,其目的是弥合视觉特征压缩与经典视频编码之间的差距。 VCM致力于以或多或少可扩展的方式满足机器和人类视觉对紧凑信号表示的需求。为此,我们努力利用预测模型和生成模型的优势来同时支持机器视觉和人类视觉任务的高级压缩技术,其中视觉功能充当桥梁,以可扩展的方式连接信号级和任务级紧凑表示方式。具体来说,我们采用条件深度生成网络在学习运动模式的指导下重建视频帧。通过学习通过预测模型提取稀疏运动模式,网络依靠编码键帧的外观,优雅地利用特征表示通过生成模型生成编码帧的外观。同时,稀疏的运动模式紧凑且对高水平视觉任务(例如:动作识别。实验结果表明,与传统的SSIM中0.0063增益的传统视频编解码器相比,我们的方法产生了更好的重建质量,以及在高度压缩的视频上的最新动作识别性能9.4的识别精度方面的表现,展示了一种有前途的编码信号模式对于人类和机器视觉。

An inexact matching approach for the comparison of plane curves with general elastic metrics
Authors Yashil Sukurdeep, Martin Bauer, Nicolas Charon
本文介绍了一种新的数学公式和数值方法,用于计算沉浸平面曲线之间的距离和测地线。我们的方法结合了最近由Kurtek和Needham引入的针对一阶弹性度量的通用简化变换,以及使用参数化不变保真度度量的匹配约束的放宽。这种公式化的主要优点是,它导致离散曲线的简单优化问题,并且为处理嘈杂,不一致或损坏的数据提供了灵活的方法。通过一些初步的数值结果可以说明这些好处。

An Internal Covariate Shift Bounding Algorithm for Deep Neural Networks by Unitizing Layers' Outputs
Authors You Huang, Yuanlong Yu
提出了批归一化BN技术,以通过尝试保持层输出的分布不变来减少所谓的内部协变量频移ICS。实验证明了它们在训练深度神经网络方面的有效性。但是,由于在这些BN技术中仅控制前两个时刻,因此似乎对层分布施加了较弱的约束,而且这种约束是否可以降低ICS尚不清楚。因此,本文提出了一种利用地球移动器EM距离的ICS度量,然后推导出该度量的上限和下限,以提供BN的理论分析。上限表明,BN技术只能控制尺寸小,噪声小的输出的ICS,而在其他情况下,其控制无效。本文还证明了这种控制仅仅是ICS的边界,而不是ICS的简化。同时,分析表明,BN无法控制的高阶矩和噪声对下限有很大影响。在这种分析的基础上,本文还提出了一种算法,该算法将具有可调参数的输出组合到进一步绑定的ICS,以解决BN问题。所提出的单元化的上限是无噪声的,并且仅由参数决定。因此,可以训练参数以调整边界并进一步控制ICS。此外,将单元化嵌入到BN的框架中以减少信息丢失。实验表明,该算法优于CIFAR 10,CIFAR 100和ImageNet数据集上的现有BN技术。

Explainable Deep Convolutional Candlestick Learner
Authors Jun Hao Chen, Samuel Yen Chi Chen, Yun Cheng Tsai, Chih Shiang Shur
烛台是给定时期内价格走势的图形表示。交易者可以通过查看烛形图来发现资产的趋势。尽管深度卷积神经网络在识别烛台模式方面取得了巨大成功,但其推理却隐藏在黑匣子中。交易者无法确定模型学到了什么。在此贡献中,我们提供了一个框架,用于解释确定时间序列的特定烛形模式的学习模型的原因。基于本地搜索对抗攻击,我们表明学习的模型以类似于人类交易者的方式感知烛台的模式。

Learning Generative Models using Denoising Density Estimators
Authors Siavash A. Bigdeli, Geng Lin, Tiziano Portenier, L. Andrea Dunbar, Matthias Zwicker
学习生成概率模型可以在给定一组样本的情况下估计连续密度,并且可以从该密度进行采样,这是无监督机器学习中的基本挑战之一。在本文中,我们引入了一种基于降噪密度估计器DDE的获取这种模型的新方法。 DDE是由神经网络参数化的标量函数,可以有效地训练它来表示数据的核密度估计量。利用DDE,我们的主要贡献是开发一种新颖的方法来获取可从给定密度采样的生成模型。我们证明,获得DDE和生成模型的算法可以保证收敛到正确的解决方案。我们方法的优点包括,我们不需要像规范化流程中那样的特定网络体系结构,不需要像连续规范化流程中那样的普通微分方程求解器,也不需要像生成对抗性网络GAN中那样的对抗性训练。最后,我们提供的实验结果证明了我们技术的实际应用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


在这里插入图片描述
在这里插入图片描述
pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章