怎样让深度学习模型更泛用？

原創

2021-06-21 15:33

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"size","attrs":{"size":10}},{"type":"strong"}],"text":"本文最初发布于towards data science网站，经原作者授权由InfoQ中文站翻译并分享。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不变风险最小化（Invariant Risk Minimization，IRM）是一种激动人心的新型学习范式，可帮助预测模型的泛化水平超越训练数据的局限。它由Facebook的研究人员开发，并在2020年的一篇"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1907.02893.pdf","title":"","type":null},"content":[{"type":"text","text":"论文"}]},{"type":"text","text":"中做了介绍。这种方法可以添加到几乎任何建模框架中，但它最适合的是利用大量数据的黑盒模型（各种神经网络及它们的变体）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文中，我们就来深入了解一番。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"技术总览"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在高层次上，IRM是一种学习范式，它试图学习因果关系而不是相关关系。通过开发训练环境和结构化数据样本等手段，我们可以尽可能提高准确性，同时保证预测变量的不变性。既适合我们的数据，又在各种环境中保持不变的预测变量被用作最终模型的输出。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/b4\/48\/b40bdbaccea73c22693c3fda0fbe8548.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"size","attrs":{"size":10}},{"type":"strong"}],"text":"图1：4-foldCV（顶部）与不变风险最小化（IRM）（底部）的理论性能对比。这些值是从"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1907.02893.pdf","title":"","type":null},"content":[{"type":"text","text":"论文"}],"marks":[{"type":"size","attrs":{"size":10}},{"type":"strong"}]},{"type":"text","marks":[{"type":"size","attrs":{"size":10}},{"type":"strong"}],"text":"中的模拟推断出来的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"第1步：开发你的环境集"},{"type":"text","text":"。我们没有重新整理数据并假设它们是IID，而是使用与数据选择过程相关的知识来开发多种采样环境。例如，对于一个解析图像中文本的模型，我们的训练环境可以按编写文本的作者来分组。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"第2步：最小化跨环境损失"},{"type":"text","text":"。开发环境之后，我们会拟合近似不变的预测变量并优化我们跨环境的准确性。更多信息请参阅后文。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"第3步：更好地泛化"},{"type":"text","text":"！风险不变最小化方法表现出比传统学习范式更高的分布外（out-of-distribution，OOD）准确性。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"到底发生了什么事情？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我们先停一下，来了解风险不变最小化的实际工作机制。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"预测模型是做什么的？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"首先，预测模型的目的是泛化，也就是在没见过的数据上也获得良好的表现。我们将没见过的数据称为分布外（OOD）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"为了模拟新数据，业界引入了多种方法（如"},{"type":"link","attrs":{"href":"https:\/\/towardsdatascience.com\/cross-validation-430d9a5fee22","title":"","type":null},"content":[{"type":"text","text":"交叉验证"}]},{"type":"text","text":"）。尽管这种方法比简单的训练集要好，但我们仍然受限于观察到的数据。那么，你能确保这个模型会泛化吗？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"嗯，一般来说你是不能的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"对于一些有着明确定义的问题来说（其中你对数据生成机制有着很好的理解），我们可以确信我们的数据样本代表了总体。但对于大多数应用类型而言我们没法这样肯定。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"举一个论文中引用的例子。我们想要判断一张图里的动物是牛还是骆驼。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/91\/98\/91e363cdd27dd8fd1d0fca23bb5b3c98.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"为此，我们使用交叉验证训练一个二元分类器，并观察到模型在我们的测试数据上获得了很高的精度。很好！"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"然而，经过更多的探索，我们发现我们的分类器只是简单地使用背景的颜色来判断图像是牛还是骆驼；当一头奶牛被放置在沙色背景中时，模型总会认为它是一头骆驼，反之亦然。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"现在，我们是否可以假设人们总是只在牧场上观察到奶牛，而只在沙漠中观察到骆驼呢？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"显然不行。虽然这是一个很小的例子，但我们可以看到类似的情况也会影响更复杂和更重要的模型。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"为什么目前的方法不够用？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在深入研究解决方案之前，我们先进一步了解为什么流行的训练\/测试学习范式是不够用的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"经典的训练\/测试范式在论文中被称为经验风险最小化（Empirical Risk Minimization ，ERM）。在ERM中，我们将数据汇集到训练\/测试集中，在所有特征上训练模型，使用测试集进行验证，并返回具有最佳测试（样本外）准确性的拟合模型。一个例子是50\/50的训练测试拆分。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"现在，为了理解为什么ERM不能很好地泛化，我们来分别看一下它的三个主要假设："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"numberedlist","attrs":{"start":1,"normalizeStart":1},"content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":1,"align":null,"origin":null},"content":[{"type":"text","text":"我们的数据是独立同分布的（IID）。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":2,"align":null,"origin":null},"content":[{"type":"text","text":"随着我们收集更多数据，样本大小n与显著特征数量之间的比率应该会降低。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":3,"align":null,"origin":null},"content":[{"type":"text","text":"只有存在具有完美训练准确度的可实现（可构建）模型时，才会出现完美的测试准确度。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"乍一看，这三个假设似乎都成立。但实际情况往往相反。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"看看我们的第一个假设，我们的数据几乎从来都不是真正的IID。在实践中，收集数据时几乎总是会引入数据点之间的关系。例如，沙漠中骆驼的所有图像都必须在世界的某些地方拍摄。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"现在有很多数据“非常”IID的情况，但重要的是，要批判性地思考你的数据收集是否以及如何引入偏见。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"假设#1：如果我们的数据不是IID，那么第一个假设就失效了，我们不能随机打乱我们的数据。重要的是要考虑你的数据生成机制是否会引入偏见。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"对于我们的第二个假设，如果我们是对因果关系建模，我们会期望显著特征的数量在一定数量的观察之后保持基本稳定。换句话说，随着我们收集更多高质量的数据，我们将能够找出真正的因果关系并完美地映射它们，因此更多的数据不会提高我们的准确性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但对于ERM来说这种情况很少发生。由于我们无法确定某种关系是否是因果的，因此更多的数据通常会拟合出更多虚假的相关性。这种现象被称为"},{"type":"link","attrs":{"href":"https:\/\/towardsdatascience.com\/understanding-the-bias-variance-tradeoff-165e6942b229","title":"","type":null},"content":[{"type":"text","text":"偏见-方差权衡"}]},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"假设#2：当使用ERM进行拟合时，显著特征的数量可能会随着我们样本量的增加而增长，从而让我们的第二个假设无效。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最后，我们的第三个假设只是说明我们有能力构建一个“完美”的模型。如果我们缺乏数据或强大的建模技术，这个假设将无效。然而，除非我们知道这是做不到的，否则我们总是假设它是可行的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"假设#3：我们假设足够大的数据集可以实现最优模型，因此假设#3成立。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"论文中也讨论了一些非ERM方法，但由于各种原因，它们也存在不足。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"解决方案：不变风险最小化"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"论文所提出的解决方案称为不变风险最小化（IRM），它克服了上面列出的所有问题。IRM是一种学习范式，可以从多个训练环境中估计因果预测变量。而且，因为我们是从不同的数据环境中学习的，我们更有可能泛化到新的OOD数据上。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如何做到这一点呢？我们利用了因果关系依赖于不变性的概念。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"回到我们的例子，我们看到的95%的图像中，奶牛的背景是草地，而骆驼的背景是沙漠，所以如果我们拟合背景的颜色，将达到95%的准确率。从表面上看，这是一个非常合适的选项。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"然而，随机对照试验中有一个叫做反事实的核心概念，说的是如果我们看到了一个假设的反例，我们就可以推倒这个假设了。因此，只要我们在沙漠中看到了一头奶牛，我们就可以得出结论，沙漠背景不会必然关联骆驼。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"虽然严格的反事实有点苛刻，但我们可以严厉惩罚我们的模型在给定环境中预测错误的实例，从而将这个概念构建到我们的损失函数中。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"例如，考虑一组环境，其中每个环境对应一个国家。假设9\/10的环境中奶牛生活在牧场，而骆驼生活在沙漠，但在第10类环境中这种模式反过来了。当我们在第10个环境中训练并观察到许多反例时，模型了解到单从背景不足以打出牛或骆驼的标签，因此降低了这个预测变量的显著性。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"方法"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我们已经看明白了IRM的含义，现在我们进入数学世界，学习该如何实现它。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/a8\/d2\/a87275abc5a93c5a81357e487c6f29d2.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"size","attrs":{"size":10}}],"text":"图2："},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1907.02893.pdf","title":"","type":null},"content":[{"type":"text","text":"最小化表达式"}],"marks":[{"type":"size","attrs":{"size":10}}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"图2展示了我们的优化表达式。正如总和所示，我们希望在所有训练环境中最小化总和值。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"进一步细分，“A”项代表我们在给定训练环境中的预测准确性，其中phi(𝛷)代表数据变换，例如一个对数或核心变换到更高维度。R表示我们模型在给定环境e下的风险函数。请注意，风险函数只是损失函数的平均值。一个经典的例子是均方误差（MSE）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“B”项只是一个正数，用于缩放我们的不变性项。还记得我们说过严格的反事实可能太苛刻了吗？这里我们可以衡量这种苛刻的程度。如果lambda(λ)为0，我们就不关心不变性，只需优化准确性。如果λ很大，我们非常关心不变性并相应地给出惩罚。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最后，“C”和“D”项代表我们的模型在训练环境中的不变性。我们不需要深入研究这一术语，但简而言之，我们的“C”项是线性分类器w的梯度向量，默认值为1。“D”是该线性分类器的风险w乘以我们的数据转换(𝛷)。整个项是梯度向量的平方距离。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1907.02893.pdf","title":"","type":null},"content":[{"type":"text","text":"论文"}]},{"type":"text","text":"详细介绍了这些术语，如果你好奇，请查看第3部分。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"总之，“A”是我们模型的准确性，“B”是衡量我们对不变性的关注程度的正数，“C”“D”是我们模型的不变性。如果我们最小化这个表达式，我们应该能找到一个模型，其只能拟合在我们的训练环境中发现的因果效应。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"IRM后续发展"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不幸的是，本文介绍的IRM范式仅适用于线性情况。将我们的数据变换到高维空间可以获得有效的线性模型，但一些关系从根本上就是非线性的。论文作者将非线性情况留给了将来的研究。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果你想跟踪这一研究，可以查看以下作者的成果："},{"type":"link","attrs":{"href":"https:\/\/scholar.google.com\/citations?user=A6qfFPkAAAAJ&hl=en","title":"","type":null},"content":[{"type":"text","text":"Martin Arjovsky"}]},{"type":"text","text":"、"},{"type":"link","attrs":{"href":"https:\/\/leon.bottou.org\/papers","title":"","type":null},"content":[{"type":"text","text":"León Buttou"}]},{"type":"text","text":"、"},{"type":"link","attrs":{"href":"https:\/\/ishaan.io\/","title":"","type":null},"content":[{"type":"text","text":"Ishaan Gulrajani"}]},{"type":"text","text":"和"},{"type":"link","attrs":{"href":"https:\/\/scholar.google.com\/citations?hl=en&user=SiCHxTkAAAAJ&view_op=list_works&sortby=pubdate","title":"","type":null},"content":[{"type":"text","text":"David Lopez-Paz"}]},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"这就是我们的方法，还不错吧？"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"实现注意事项"}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"这里有一个PyTorch"},{"type":"link","attrs":{"href":"https:\/\/github.com\/facebookresearch\/InvariantRiskMinimization","title":"","type":null},"content":[{"type":"text","text":"包"}]},{"type":"text","text":"。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"IRM最适合未知的因果关系。如果存在已知关系，你应该在模型结构中考虑它们。一个著名的例子是卷积神经网络（CNN）的卷积。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"IRM在无监督模型和强化学习方面具有很大的潜力。模型公平性也是一个有趣的应用。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"优化非常复杂，因为有两个最小化项。论文概述了一种使优化凸出的变换，但仅限于线性情况。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"IRM对轻度模型错误定义具有稳健性，因为它在训练环境的协方差方面是可微的。因此，虽然“完美”模型是理想的，但最小化表达式对小的人为错误具有弹性。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"原文链接"},{"type":"text","text":"："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/towardsdatascience.com\/how-to-make-deep-learning-models-to-generalize-better-3341a2c5400c","title":"","type":null},"content":[{"type":"text","text":"https:\/\/towardsdatascience.com\/how-to-make-deep-learning-models-to-generalize-better-3341a2c5400c"}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

网络爬虫安全：90后小伙，用软件非法搬运他人原创视频被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大语言模型：理解Self Attention| 京东物流技术团队

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指标说明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

舌尖上的AI：人工智能技术正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

攻击者正在利用AI，对保险公司发起大规模欺诈

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

AIGC在京东广告创意的技术应用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

AI绘图新选择：Fooocus工具发布，小显存助力大模型运行

隨着人工智能技術的飛速發展，AI繪圖工具已經成爲了衆多創作者們的得力助手。它們能夠基於深度學習算法，快速生成高質量的圖像，爲設計、藝術等領域注入了新的活力。然而，傳統的AI繪圖工具往往對硬件要求較高，使得許多擁有較低配置設備的用戶望而卻步。

2024-05-07 23:30:10

GLM国产大模型训练加速：高效性能与成本优化的实践

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

LoRA微调语言大模型的实用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

京东广告研发——效率为王：广告统一检索平台实践

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

大模型区域落地再加速！百度“文心中国行”西部首站落地成都锦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

文心中国行走进成都！4 月 24 日一起把握大模型时代的产业新机遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

文心大模型“你说我画”：PaddleHub与PaddleSpeech的协同实践

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索时间序列大模型：TimeGPT的魅力与实践

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

24小時熱門文章

最新文章

最新評論文章