2022年8月的10篇论文推荐

很久没有推荐论文了,但是在推荐新论文之前,首先推荐一个新闻:

谷歌分享了公司内部如何使用代码生成案例,3%的新代码是由语言模型(Language Model)、DeepSpeed (DeepSpeed)编写的,通过语言模型生成代码的智能建议,建议接受率约为25%,减少了6%的编码迭代时间,平均每个接受的建议为21个字符:

https://ai.googleblog.com/2022/07/ml-enhanced-code-completion-improves.html

这才是AI在真实世界的应用,并且正在向着更好的方向前进,而不是像某些人成天吹嘘的替代这个、替代那个。

我们回到正题,本次推荐的10篇论文包括:强化学习(RL)、缩放定律、信息检索、语言模型等。

1、Beyond neural scaling laws: beating power law scaling via data pruning

Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, Ari S. Morcos.

https://arxiv.org/abs/2206.14486

缩放定律是现代神经网络中普遍存在的经验现象,其中误差被认为是训练集大小、模型大小或两者的幂次。有一些人认为他是正确的,并且设计了一个专注于扩大规模的研究方向。但还有大部分人认为,一定有办法在不超大规模的模型和数据的情况下建立更好的模型。这篇论文探讨了一种能够提高神经网络性能,“战胜”缩放定律的数据剪枝技术。

在这项工作的背景下,剪枝是指从训练数据集中删除训练数据样本而不是修剪神经网络的权重。提出的方法背后的理论很简单:可以在“易于学习”到“难以学习”的训练数据集中对样本进行排名。一个典型的数据集将包含太多易于学习的样本——也就是说,更少的样本就足以在这些样本上达到良好的性能——而来自难以学习的样本又太少——这意味着需要更多的样本来适当地训练模型。

解决这个问题的一种方法是扩大整个训练数据集的规模,因为给定足够大的规模——假设数据分布是均匀的——最终你会得到足够多的“难以学习”的样本。但这是非常浪费的。如果我们可以使用先验来确定一个包含易于学习和难以学习样本的更好平衡的训练数据集,结果会怎么样呢?这就是这篇论文所研究的问题。

这个问题可以形式化为试图找到一个修剪度量分配给每个训练样本,然后根据该度量排序并修剪训练数据集到所需的大小。他们在这篇论文中提出了一个新的衡量标准,可以与现有的需要标记数据的工作相媲美。

这篇论文中最有趣的贡献是他们关于无标签数据修剪的部分。他们对预训练的ImageNet模型的嵌入进行k-means聚类,并将每个样本的“硬度”定义为其到最近的质心的距离:容易学习的原型样本将最接近质心,而难以学习的样本将远离它们簇的质心。结果表明,大约20%的ImageNet训练样本可以在不牺牲性能的情况下进行修剪。

这篇论文的结果并不令人瞠目,但它背后的关键思想有可能在其他任务中有用,如图像分割、语言建模或任何其他多模态数据集管理。

2、Denoised MDPs: Learning World Models Better Than the World Itself

Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian.

https://arxiv.org/abs/2206.15477

许多机器学习技术的核心是从噪声中识别相关和有用的信号(或模式)的能力。

在强化学习的背景下,这项工作通过识别agent可控的和与奖励相关的信息,形式化了“好的信息与不相关的信息”的问题,如下图所示。

基于这一思想,作者提出了去噪MDPs(马尔科夫决策过程),这是一种学习状态表示的因数分解的方法,该方法利用信息论原理分离了状态的可控和奖励。它的要点是,状态的不同因素应该最大或最小地预测其他因素,这取决于它们的关系,基于以上的理论作者为代理优化设置一个变分目标。

其结果是一个世界模型,该模型明确地建模了哪些信息应该被丢弃为噪声,以及哪些信息应该用于为代理的决策建模。作者证明了这种方法在DeepMind套件中是如何提高性能的,并且他们定性地展示了去噪MDP表示是如何工作的,通过训练一个解码器重构输入,可以理解状态的信号表示学习捕捉什么。

完整文章:

https://avoid.overfit.cn/post/b04efbf62c86430ca388888496cdd88b

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章