NLP简报（Issue#2）:Reformer, DeepMath, ELECTRA, TinyBERT for Search, VizSeq, Open-Sourcing ML,…

本文首发于微信公众号：NewBeeNLP，欢迎关注获取更多干货资源。

欢迎回到NLP简报第二期！
如果想让自己有趣的研究/项目出现在 NLP 简报中，随时在公众号后台留言联系我

来看看本期的内容，

文章目录

2、Creativity and Society 🎨

3、Tools and Datasets ⚙️

4、Ethics in AI 🚨

5、Articles and Blog posts ✍️

6、Education 🎓

7、Notable Mentions ⭐️

1、Publications 📙

1.1 关于信任模型的不确定性

来自Google AI的最新论文Can You Trust Your Model’s Uncertainty?发表在NeurIPS上，研究的是模型的概率是否反映了其预测分布失调和数据移位的能力。发现深度继承模型在数据集移位上表现更好（即改进了模型不确定性），而其他模型并没有随着数据集移位变得越来越不确定，而是确信地变成了错误。可以查看官方博客了解更多。

1.2 Systematic generalization

ICLR上发表的一篇有趣的工作：<Systematic Generalization: What Is Required and Can It Be Learned?>提出了模块模型和通用模型之间的比较，以及它们在语言理解中进行系统概括的有效性。基于对视觉问题回答任务进行的推理评估，作者得出结论，可能需要明确的正则化函数和先验知识才能实现系统的概括。

1.3 Reformer

众所周知，由于在attention layer中执行昂贵的计算，因此Transformer模型在可以覆盖的上下文窗口中受到很大限制。因此，可能仅可能将Transformer模型应用于有限的文本大小或生成简短的语句或音乐。 GoogleAI最近发布了一种有效的Transformer模型变体，称为Reformer。该方法的主要焦点是能够处理更高的上下文窗口，同时减少计算需求并提高内存效率。重整器使用局部敏感哈希（LSH）将相似的向量分组在一起，并从其中创建片段，从而实现并行处理。然后将注意力转移到这些较小的部分和相应的相邻部分上，这就是减少计算负荷的原因。使用可逆层可实现存储效率，可逆层允许在通过反向传播进行训练时按需重新计算每层的输入信息。这是一种简单的技术，避免了需要在内存中存储激活的模型。查看此Colab notebook，以了解如何将Reformer模型应用于图像生成任务。

1.4 用于文本分类的无监督域自适应

这项工作，Self-Attention with Relative Position Representations，提出了将距离度量结合到附加损失函数中的方法，以训练模型并改善无监督域自适应。该模型被扩展为DistanceNet Bandit模型，该模型优化了“转移到低资源目标域”的结果。用这种方法解决的关键问题是如何处理来自不同域的数据之间的差异，特别是因为它涉及NLP任务（例如情感分析）。

1.5 改进的上下文表示

ELECTRA提出了一种称为token-detection的样本效率更高的预训练任务，用于训练比掩盖的语言建模预训练方法（例如BERT）更有效的语言模型。该模型ELECTRA，在相同的数据和模型大小下，其上下文表示优于BERT和XLNET。该方法特别适用于低计算方案，这对建立更小和更便宜的语言模型又迈进了一步。

1.5 模型可解释性

Distill最近出版的标题为“Visualizing the Impact of Feature Attribution Baselines”的文章讨论了Integrated Gradients，该梯度用于通过识别哪些特征与预测某个数据点相关来解释各种问题中的神经网络。问题在于正确定义和保留缺失概念，这是积分梯度的基线输入所要达到的目的。在模型可解释性的背景下，这里的挑战在于，该方法必须确保模型不会突出显示缺失的特征，而同时又避免给基线输入以零重要性，而这很容易发生。作者建议定量评估一些先前使用和建议的基线选择的不同效果，以更好地保留缺失概念。

2、Creativity and Society 🎨

2.1 情感不匹配

这项纵向研究，Emotions Extracted from Text vs. True Emotions，发现通过使用基于文本的算法提取的情绪通常与自我报告的情绪不同。

2.2 多巴胺的理解和蛋白质折叠

DeepMind最近在Nature杂志上发表了两篇有趣的论文。第一篇论文，Dopamine-and-temporal-difference-learning，旨在通过强化学习更好地了解大脑中的多巴胺如何发挥作用。第二篇论文，AlphaFold-Using-AI-for-scientific-discovery，与蛋白质折叠更相关，并试图更好地理解它，以便能够潜在地发现多种疾病的治疗方法。这些都是很好的例子，说明了如何将AI系统潜在地应用于现实世界中的应用程序以帮助社会。

2.3 有关ML的访谈

在接受Wired采访时，Refik Anadol讨论了机器学习算法创造精美艺术的潜力。这是如何将ML用于创造力的一个很好的例子。

人工智能可能会产生重大影响的行业之一是教育。在The Future of Everything的新剧集中，Russ Altman和Emma Brunskill对计算机辅助学习进行了深入讨论。

3、Tools and Datasets ⚙️

3.1 生产环境中的PyTorch模型

Cortex是一种工具，可用于自动化基础架构并将PyTorch模型作为API部署在AWS中。点击这篇博文Using PyTorch Models in Production with Cortex详细了解其操作方式。

3.2 可视化文本生成序列

Facebook AI发布了VizSeq，该工具可帮助以可视化方式评估BLUE和METEOR等指标下的文本生成序列。该工具的主要目标是通过利用可视化并使其对研究人员更具可扩展性和生产力，提供对文本数据集的更直观的分析。可以阅读原论文获取更多信息。

3.3 效果最优的在线语音识别

FacebookAI开源wav2letter@anywhere，这是一个推理框架，该推理框架基于基于Transformer的声学模型，用于最新的在线语音识别。重大改进涉及模型的大小，并减少了音频和转录之间的延迟，这对于实现更快的实时推理都很重要。

4、Ethics in AI 🚨

4.1 AI implications

为了防止AI系统对公众的滥用和不道德行为，欧盟正在考虑五年内禁止公众使用面部识别技术，点此查看全文。

4.2 现代自然语言处理的环境成本

也许大多数时候都被忽略了，Energy and Policy Considerations for Deep Learning in NLP一文讨论了NLP中现代深度学习方法的能量和政策考虑。众所周知，当前的模型依赖数十亿个参数，进而依赖大量的计算资源，从而消耗大量能源。作者希望对训练这些现代NLP模型所涉及的环境成本传播更多的认识。

Zachary Lipton在多伦多大学的演讲中讨论了公平性，可解释性和解决主义的危险，演讲主题围绕ML公平方法和含义。

5、Articles and Blog posts ✍️

5.1 开源ML

Hugging Face的科学负责人Thomas Wolf为计划开源ML代码&研究的人员提供了出色的建议。

5.2 计算机视觉的自监督学习

Jeremy Howard在这篇出色的博客文章中，Self-supervised learning and computer vision，简要介绍了在计算机视觉环境下进行自监督学习的概念。这些简短的摘要，有助于为你提供可靠的介绍，万一你有兴趣将这一领域的技术应用于自己的问题呢。

5.3 用于搜索的TinyBERT

我们已经看到许多BERT模型的变体（例如DistilBERT）的成功，这些变体使用某种形式的知识蒸馏来显着减小模型大小并提高速度。一些人使用了BERT的变体TinyBERT，并将其应用于基于关键字的搜索解决方案。此项目的灵感来自于该搜索解决方案，该解决方案用于理解Google提出的搜索。该体系结构的很大一部分是，它可以在标准CPU上工作，并且可以用于改善和理解搜索结果。

5.4 主动转移学习

Rober Monarch这篇有关主动转移学习的博客文章十分有趣，这是他即将出版的《Human-in-the-loop Machine Learning》一书的一部分。他目前正在写很棒的博客文章，介绍结合人与机器智能解决问题的方法，他还提供了所讨论方法的随附PyTorch实现。

5.5 Revealing the Dark Secrets of BERT

Anna Roger撰写了一篇有趣而有趣的博客文章， the Dark Secrets of BERT，其中讨论了经过微调的BERT的实际情况，以及所宣称的优势是否用于处理诸如情感分析，文本含义和自然语言推断等下游任务。分析的结果表明，BERT的参数过高，并且该框架的自注意力组件由于它与被编码并用于推理的语言信息有关，所识别出的好处不一定特别如其所主张的。

6、Education 🎓

6.1 Neural Nets for NLP

CMU的NLP教授Graham Neubig已经发布了本学期提供的“ NLP神经网络”课程的视频。对于那些对现代NLP方法学习感兴趣的人，我强烈推荐该播放列表。

6.2 深度学习数学

是否想深入研究深度学习方法背后的数学？这个视频讲座系列，已经拥有众多演讲者。

6.3 Python课程和教程

Python不仅在IT行业而且在数据科学领域也已成为最受欢迎的编程语言之一。为了向全世界的学习者提供Python的实践知识，Google发布了“Google IT Automation with Python Professional Certificate”课程。尽管该课程与ML或AI并没有直接关系，但这绝对是精通Python语言的不错的基础课程，并且提供奖学金。

这是另一个很有前景的视频系列，称为“Deep Learning (for Audio) with Python”，重点是利用Tensorflow和Python通过利用深度学习来构建与音频/音乐相关的应用程序。

6.4 Deep Learning State of the Art

观看Lex Fridman关于深度学习的最新研究和发展的视频讲座。他谈到了诸如感知器，神经网络，反向传播，CNN，深度学习，ImageNet，GAN，AlphaGo和最新的Transformers等主题的重大突破，本讲座是MIT深度学习系列的一部分。

6.5 在线学习和研究

有许多很棒的在线计划可以在研究和学习中进行协作。我个人最喜欢的是MLT的数学阅读课程，这项由Nightai发起的新的分布式AI研究协作计划。最近，有许多这样的在线研究小组，它们是沉浸于ML世界的好方法。

6.6 The landscape of Reinforcement Learning

在网络研讨会上向Katja Hofmann博士学习强化学习的关键概念、方法，以及学习方向。

7、Notable Mentions ⭐️

查看适用于CIFAR-10的ResNet-18的PyTorch实现，该实现可实现约94％的准确度。

PyTorch 1.4发布了！在此处查看发行说明。

Elona Shatri撰写了一篇出色的摘要，说明了她打算如何使用深度学习进行光学音乐识别。

看博客文章的标题就知道啦：“贝叶斯深度学习案例”。

Chris Said分享了他在优化A/B测试样本量方面的经验，这是实用数据科学的重要组成部分。主题包括大样本量的成本和收益以及从业人员的最佳实践。

Neural Data Server (NDS) 是用于获取转移学习数据的专用搜索引擎，在此处阅读有关方法和服务的信息。