CVPR-2020笔记 | 文末送书

CVPR-2020笔记 | 文末送书
目录
(.)中的数字表示数量。

CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
在生产中部署“HydraNet”:8个摄像头连接着48个网络;1000个不同的预测;70000个GPU。
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书




  • 用端到端鸟瞰预测代替传统的图像拼接。
  • 特斯拉的可扩展性挑战:在50多个标签上反复“大海捞针”(特殊情况);模型的不确定性仍然非常具有挑战性;驾驶时没有高清地图(不需要超时维护)。
  • Q:为什么不使用高清地图?它们不是为安全功能提供了强有力的先例吗?为什么要从头开始重建?
  • A:我们仍然使用高清地图,但长期来看是不可扩展的,如果高清地图没有及时更新,模型可能会做一些蠢事。
    [Tutorial | Mon.]IBM Research的 Zeroth Order Optimization
    题目:IBM Research的0阶优化
    链接:https://sites.google.com/umich.edu/cvpr-2020-zoo
    CVPR-2020笔记 | 文末送书



  • 基于arXiv'20的“A Primer on Zeroth-Order Optimization in Signal Processing and Machine Learning”:https://arxiv.org/abs/2006.06224
  • 和它的名字一样,零阶意味着不能从模型中获取梯度信息,一阶(Jacobian)和二阶(Hessian)。
  • 想法:ZOO使用“有限差分法”(或2点法来估计梯度),并使用现成的基于梯度的优化器来更新模型。
  • 与贝叶斯优化(BayesOpt)相似的部分:都是处理黑箱优化问题的算法,而非可微的)。
  • 与GPs的贝叶斯优化不同的是:GPs仍然需要一阶信息来更新其核心参数,而ZOO则不需要。
  • 与强化学习相似(RL中使用的策略梯度):都使用估计的梯度来更新模型。
  • 不同于强化学习的部分:强化学习仍然可以访问模型的一阶信息(即强化学习仍然需要模型的Jacobian更新其参数)。
  • 使用ZOO的流行领域:对抗ML,如黑盒对抗***(“ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute"显示基于ZOO的黑盒***可以与MNIST、CIFAR-10和ImageNet上的白盒***一样有效)和模型预测解释(类似于***)。也可以作为超参数优化、RL策略搜索等算法的替代方案:https://arxiv.org/pdf/1708.03999.pdf
    [Tutorial | Mon.] From NAS to HPO: Automated Deep Learning
    [Tutorial | Mon.]从NAS到HPO:自动化深度学习
    链接:https://hangzhang.org/CVPR2020/
    介绍AutoGluon工具箱-张杭:https://youtu.be/XdaFprz3ECE
    CVPR-2020笔记 | 文末送书
    自动联合超参数和网络架构搜索(用户仍然需要定义搜索空间)。兼容其他DL库,如Pytorch!





  • 工作流程:
  • (1)使用AutoGluon为网络、优化器等分配自定义搜索空间;
  • (2)将网络和优化器传递给训练函数。
  • (3) 把训练功能传递给调度器,就可以开始了。
  • 内置的超参数优化(HPO)(BayesOpt with GP)/NAS(ENAS,ProxylessNAS)/早期停止算法。HPO/早期停止算法在Cedric Archambeau的教程“Automated Hyperparameter and Architecture Tuning”中有介绍:https://www.youtube.com/watch?v=pB1LmZWK_N8&feature=youtu.be
    AutoML for TinyML with One for All Network(ICLR'20)
    链接:https://www.youtube.com/watch?v=fptQ_eJ3Uc0&feature=youtu.be

  • 设备感知的NAS挑战:工程的设计(为不同的硬件平台定制模型以达到最佳的准确性和效率的权衡可能相当昂贵)和昂贵的训练资源。
  • 主要思想:将传统NAS的训练(内环)和搜索(外环)分离,搜索后无需再训练直接部署。
    CVPR-2020笔记 | 文末送书
    CVPR-2020笔记 | 文末送书
    解决方案-“渐进收缩”(训练阶段):为了防止不同子网之间的“干扰”,它通过从全网到小子网逐步训练,跨越分辨率、核尺寸、深度和宽度四个维度。


CVPR-2020笔记 | 文末送书
渐进收缩是如何工作的?见下图和说明。
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
第一个图对不同分辨率的图像进行批量采样;第二个图先训练较大的核,然后再训练较小的核。5x5核函数由7x7核函数的5x5权值中心再通过25x25变换矩阵进行投影,然后通过9x9变换矩阵,从5x5内核的3x3权重中心投影到3x3的核。
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书





CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
处理不平衡数据
Unbiased Scene Graph Generation From Biased Training (Oral).(https://www.youtube.com/watch?v=hqDB45bRv54)。传统学习受到数据偏差的影响,本文提出了一种基于反事实思维的无偏推理,即使训练仍然存在数据偏差,但无偏预测可以通过减去盲预测和非盲预测之间的概率分布得到
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax(https://www.youtube.com/watch?v=Lp72nHceTZQ)。在长尾数据集上简单地训练一个对象检测器将导致性能的显著下降。作者观察到,对于每个对象类,特征抽取器中的权重范数与训练实例数呈正相关性(即尾类的权重范数较小)。权重不平衡的影响主要是由标准的softmax引起的,因此,他们建议将训练实例数相近的类进行分组,并开发一个“分组”的softmax,这样尾类的权重范数不受头类的影响。这个想法很直观,很好,但是我们能不能把这种“离散”的群体过程变成更“连续”的过程(比如focal损失)?
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
多任务学习
LSM: Learning Subspace Minimization for Low-level Vision (Oral)(https://www.youtube.com/watch?v=4zOMGz38vBo)。许多低层次视觉任务可以表述为最小化数据项和正则项,然而正则化术语通常是特定于任务的。为了统一它们,该论文建议将解表示为基向量的线性组合,并求解组合系数(直觉:PCA的“特征面”)。该框架实现了参数完全共享的多任务学习,它们在四个低级任务(交互式图像分割、视频分割、立体匹配和光流)上实现SoTA,具有更小的模型尺寸、更快的训练收敛速度、实时的推理时间以及在不可见的领域更多的泛化
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
表示学习
Towards Backward-Compatible Representation Learning (Oral)(https://www.youtube.com/watch?v=hnexF0rrDUE)解决了后向兼容问题,以基于嵌入的图像检索为例,在更改DNNs的新版本时,需要在离线会话期间重新计算图像嵌入量,然而当图像数量达到数十亿时,处理它可能需要一周的时间。我们可以在不重新计算嵌入的情况下切换到DNNs的新版本吗?答案是肯定的。论文建议使用:1)旧版本的分类器和旧版本的数据一起训练新版本的嵌入;2)同时使用新版本的数据训练新版本的分类器,它比从旧版本的嵌入中提取特征要好
CVPR-2020笔记 | 文末送书
Circle Loss: A Unified Perspective of Pair Similarity Optimization (Oral).(http://openaccess.thecvf.com/content_CVPR_2020/papers/Sun_Circle_Loss_A_Unified_Perspective_of_Pair_Similarity_Optimization_CVPR_2020_paper.pdf)作者简单地给出了三重态损失中正对和负对的两个权值(超参数),从数学上证明了这种简单的修改可以在人脸识别、reID和图像检索等需要学习相似性的任务上获得更好的性能
CVPR-2020笔记 | 文末送书
自我监督学习
Momentum Contrast for Unsupervised Visual Representation Learning(https://paperswithcode.com/paper/momentum-contrast-for-unsupervised-visual)。目前,自我监督表示学习的领域主要是基于对比的方法(本文就是其中之一,由Facebook提出),然而,还有一些其他的论文,如SimCLR、BYOL和最近的SwAV(在视图之间交换任务;也是由Facebook提出的)都胜过这种方法(但是它们的思想是相似的)。
CVPR-2020笔记 | 文末送书
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models(https://paperswithcode.com/paper/pulse-self-supervised-photo-upsampling-via)。最近,这篇文章在Twitter上被广泛讨论,低分辨率奥巴马的面部图像会被提升为白人的面部图像(反映数据集偏差或“ML公平性”问题)。可以参阅本文:https://thegradient.pub/pulse-lessons/
半监督学习
Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Situations (https://arxiv.org/abs/2003.12237)。提出了一个对未标记数据进行区分性和多样性预测的正则化项,通过最大化批处理矩阵的Frobenius范数等价于最大化其核范数(近似于矩阵秩)。该方法改进了半监督学习,实现了开放域识别问题的SoTA,简单有效
CVPR-2020笔记 | 文末送书
Self-training with Noisy Student improves ImageNet classification(https://paperswithcode.com/paper/self-training-with-noisy-student-improves):ImageNet上的新SoTA
弱监督学习(用于语义分割)
弱监督学习的一个典型任务是语义分割。常用的方法是利用图像分类器产生的类激活映射(CAM)作为语义分割的伪标签,然而,主要的挑战是这些凸轮通常是物体的小鉴别部分。让我们看看下面的文章是如何应对这一挑战的。
Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation (Oral)(https://arxiv.org/abs/2004.04581)。该方法通过对具有不同变换(如重缩放、图像翻转、旋转和平移)的同一图像的CAM关注点之间的等变一致性,在弱监督语义分割基准(如PASCAL VOC 2012)上取得了较好的性能。
CVPR-2020笔记 | 文末送书
Weakly-Supervised Semantic Segmentation via Sub-Category Exploration (Poster)(https://openaccess.thecvf.com/content_CVPR_2020/papers/Chang_Weakly-Supervised_Semantic_Segmentation_via_Sub-Category_Exploration_CVPR_2020_paper.pdf)。在阅读本文时,我发现之前的SoTA-FickleNet(CVPR'19)也很有趣,他们用一种无需训练的方法来解决上述问题,该方法使用随机推理将对象的多个判别部分结合起来
基于图像标签的单阶段语义分割。
目标检测
Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection(https://paperswithcode.com/paper/bridging-the-gap-between-anchor-based-and)
Revisiting the Sibling Head in Object Detector(https://paperswithcode.com/paper/revisiting-the-sibling-head-in-object)
知识提炼
Revisiting Knowledge Distillation via Label Smoothing Regularization
What It Thinks Is Important Is Important: Robustness Transfers Through Input
Gradients(http://openaccess.thecvf.com/content_CVPR_2020/html/Chan_What_It_Thinks_Is_Important_Is_Important_Robustness_Transfers_Through_CVPR_2020_paper.html)我们经常看到,教师模式可以通过知识提炼转化为学生模式,然而,本文首次表明,在跨任务和跨体系结构的情况下,对抗性鲁棒性也可以被转移!这个想法是使用对抗性损失来匹配教师和学生模型之间的输入梯度
CVPR-2020笔记 | 文末送书
Distilling Effective Supervision from Severe Label Noise(https://paperswithcode.com/paper/ieg-robust-neural-network-training-to-tackle)
数据增强
Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition(https://paperswithcode.com/paper/learn-to-augment-joint-data-augmentation-and).
Rethinking Data Augmentation for Image Super-resolution: A Comprehensive Analysis and a New Strategy(https://paperswithcode.com/paper/rethinking-data-augmentation-for-image-super).
CycleISP: Real Image Restoration via Improved Data Synthesis(https://arxiv.org/abs/2003.07761)。提出了一种更真实的噪声合成方法,即通过模拟摄像机成像管道来训练单个图像去噪模型。该方法可以在原始空间和sRGB空间中生成噪声和干净的图像对。他们在真实的相机基准数据集上实现了SoTA
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
A Physics-Based Noise Formation Model for Extreme Low-Light Raw Denoising(https://www.youtube.com/watch?v=DMDKPRozdeo)。在极低光照条件下合成逼真的噪声图像。该论文提出了一种适用于不同摄像机的噪声参数标定方法,是一个优于使用真实世界配对数据训练的方法
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
优化
Hardware-in-the-Loop End-to-End Optimization of Camera Image Processing Pipelines(http://cvpr20.com/event/hardware-in-the-loop-end-to-end-optimization-of-camera-image-processing-pipelines-2/)。利用无梯度优化方法,通过调整ISP黑盒来优化ISP下游任务的性能
Optimizing Rank-Based Metrics With Blackbox Differentiation(https://www.youtube.com/watch?v=UtOG3utfd5s)。优化基于排名的指标(如平均精确度和召回率)是很困难的,因为它们是分段函数(score)且所有地方都具有零梯度。论文提出了最直观的方法:“平滑”这些损失,并使其可微
CVPR-2020笔记 | 文末送书
Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks.。该论文提出的将规范化和激活作为一个单一的层,其性能击败了从小批量到大批量设置的所有SoTA规范化技术。
评价与概括
Computing the Testing Error Without a Testing Set(https://www.youtube.com/watch?v=XuDU--076VA)。在ImageNet测试中获得高精度并不意味着识别问题得到了解决。DNNs的泛化能力随标记测试集的不同而不同。前一篇文章可以看到,一般化的dnn具有特定的连接模式。本文提出用拓扑描述符来度量连通模式,他们发现这种测量方法与泛化差距有很好的相关性
CVPR-2020笔记 | 文末送书
CVPR-2020笔记 | 文末送书
High-Frequency Component Helps Explain the Generalization of Convolutional Neural Networks(https://www.youtube.com/watch?v=8H0QQbMFb-k)
Dataless Model Selection With the Deep Frame Potential.
不确定度估计
On the uncertainty of self-supervised monocular depth estimation。比较了自监督单目深度估计的几种不确定度估计方法,提出了一种将自监督与数据不确定度相结合的新方法。
Scalable Uncertainty for Computer Vision With Functional Variational Inference .
Uncertainty-Aware CNNs for Depth Completion: Uncertainty from Beginning to End.
参考链接:https://medium.com/@howardyclo/cvpr-2020-notes-9b3bbd357b2d
































































發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章