NLP簡報（Issue#2）:Reformer, DeepMath, ELECTRA, TinyBERT for Search, VizSeq, Open-Sourcing ML,…

本文首發於微信公衆號：NewBeeNLP，歡迎關注獲取更多幹貨資源。

歡迎回到NLP簡報第二期！
如果想讓自己有趣的研究/項目出現在 NLP 簡報中，隨時在公衆號後臺留言聯繫我

來看看本期的內容，

文章目錄

2、Creativity and Society 🎨

3、Tools and Datasets ⚙️

4、Ethics in AI 🚨

5、Articles and Blog posts ✍️

6、Education 🎓

7、Notable Mentions ⭐️

1、Publications 📙

1.1 關於信任模型的不確定性

來自Google AI的最新論文Can You Trust Your Model’s Uncertainty?發表在NeurIPS上，研究的是模型的概率是否反映了其預測分佈失調和數據移位的能力。發現深度繼承模型在數據集移位上表現更好（即改進了模型不確定性），而其他模型並沒有隨着數據集移位變得越來越不確定，而是確信地變成了錯誤。可以查看官方博客瞭解更多。

1.2 Systematic generalization

ICLR上發表的一篇有趣的工作：<Systematic Generalization: What Is Required and Can It Be Learned?>提出了模塊模型和通用模型之間的比較，以及它們在語言理解中進行系統概括的有效性。基於對視覺問題回答任務進行的推理評估，作者得出結論，可能需要明確的正則化函數和先驗知識才能實現系統的概括。

1.3 Reformer

衆所周知，由於在attention layer中執行昂貴的計算，因此Transformer模型在可以覆蓋的上下文窗口中受到很大限制。因此，可能僅可能將Transformer模型應用於有限的文本大小或生成簡短的語句或音樂。 GoogleAI最近發佈了一種有效的Transformer模型變體，稱爲Reformer。該方法的主要焦點是能夠處理更高的上下文窗口，同時減少計算需求並提高內存效率。重整器使用局部敏感哈希（LSH）將相似的向量分組在一起，並從其中創建片段，從而實現並行處理。然後將注意力轉移到這些較小的部分和相應的相鄰部分上，這就是減少計算負荷的原因。使用可逆層可實現存儲效率，可逆層允許在通過反向傳播進行訓練時按需重新計算每層的輸入信息。這是一種簡單的技術，避免了需要在內存中存儲激活的模型。查看此Colab notebook，以瞭解如何將Reformer模型應用於圖像生成任務。

1.4 用於文本分類的無監督域自適應

這項工作，Self-Attention with Relative Position Representations，提出了將距離度量結合到附加損失函數中的方法，以訓練模型並改善無監督域自適應。該模型被擴展爲DistanceNet Bandit模型，該模型優化了“轉移到低資源目標域”的結果。用這種方法解決的關鍵問題是如何處理來自不同域的數據之間的差異，特別是因爲它涉及NLP任務（例如情感分析）。

1.5 改進的上下文表示

ELECTRA提出了一種稱爲token-detection的樣本效率更高的預訓練任務，用於訓練比掩蓋的語言建模預訓練方法（例如BERT）更有效的語言模型。該模型ELECTRA，在相同的數據和模型大小下，其上下文表示優於BERT和XLNET。該方法特別適用於低計算方案，這對建立更小和更便宜的語言模型又邁進了一步。

1.5 模型可解釋性

Distill最近出版的標題爲“Visualizing the Impact of Feature Attribution Baselines”的文章討論了Integrated Gradients，該梯度用於通過識別哪些特徵與預測某個數據點相關來解釋各種問題中的神經網絡。問題在於正確定義和保留缺失概念，這是積分梯度的基線輸入所要達到的目的。在模型可解釋性的背景下，這裏的挑戰在於，該方法必須確保模型不會突出顯示缺失的特徵，而同時又避免給基線輸入以零重要性，而這很容易發生。作者建議定量評估一些先前使用和建議的基線選擇的不同效果，以更好地保留缺失概念。

2、Creativity and Society 🎨

2.1 情感不匹配

這項縱向研究，Emotions Extracted from Text vs. True Emotions，發現通過使用基於文本的算法提取的情緒通常與自我報告的情緒不同。

2.2 多巴胺的理解和蛋白質摺疊

DeepMind最近在Nature雜誌上發表了兩篇有趣的論文。第一篇論文，Dopamine-and-temporal-difference-learning，旨在通過強化學習更好地瞭解大腦中的多巴胺如何發揮作用。第二篇論文，AlphaFold-Using-AI-for-scientific-discovery，與蛋白質摺疊更相關，並試圖更好地理解它，以便能夠潛在地發現多種疾病的治療方法。這些都是很好的例子，說明了如何將AI系統潛在地應用於現實世界中的應用程序以幫助社會。

2.3 有關ML的訪談

在接受Wired採訪時，Refik Anadol討論了機器學習算法創造精美藝術的潛力。這是如何將ML用於創造力的一個很好的例子。

人工智能可能會產生重大影響的行業之一是教育。在The Future of Everything的新劇集中，Russ Altman和Emma Brunskill對計算機輔助學習進行了深入討論。

3、Tools and Datasets ⚙️

3.1 生產環境中的PyTorch模型

Cortex是一種工具，可用於自動化基礎架構並將PyTorch模型作爲API部署在AWS中。點擊這篇博文Using PyTorch Models in Production with Cortex詳細瞭解其操作方式。

3.2 可視化文本生成序列

Facebook AI發佈了VizSeq，該工具可幫助以可視化方式評估BLUE和METEOR等指標下的文本生成序列。該工具的主要目標是通過利用可視化並使其對研究人員更具可擴展性和生產力，提供對文本數據集的更直觀的分析。可以閱讀原論文獲取更多信息。

3.3 效果最優的在線語音識別

FacebookAI開源wav2letter@anywhere，這是一個推理框架，該推理框架基於基於Transformer的聲學模型，用於最新的在線語音識別。重大改進涉及模型的大小，並減少了音頻和轉錄之間的延遲，這對於實現更快的實時推理都很重要。

4、Ethics in AI 🚨

4.1 AI implications

爲了防止AI系統對公衆的濫用和不道德行爲，歐盟正在考慮五年內禁止公衆使用面部識別技術，點此查看全文。

4.2 現代自然語言處理的環境成本

也許大多數時候都被忽略了，Energy and Policy Considerations for Deep Learning in NLP一文討論了NLP中現代深度學習方法的能量和政策考慮。衆所周知，當前的模型依賴數十億個參數，進而依賴大量的計算資源，從而消耗大量能源。作者希望對訓練這些現代NLP模型所涉及的環境成本傳播更多的認識。

Zachary Lipton在多倫多大學的演講中討論了公平性，可解釋性和解決主義的危險，演講主題圍繞ML公平方法和含義。

5、Articles and Blog posts ✍️

5.1 開源ML

Hugging Face的科學負責人Thomas Wolf爲計劃開源ML代碼&研究的人員提供了出色的建議。

5.2 計算機視覺的自監督學習

Jeremy Howard在這篇出色的博客文章中，Self-supervised learning and computer vision，簡要介紹了在計算機視覺環境下進行自監督學習的概念。這些簡短的摘要，有助於爲你提供可靠的介紹，萬一你有興趣將這一領域的技術應用於自己的問題呢。

5.3 用於搜索的TinyBERT

我們已經看到許多BERT模型的變體（例如DistilBERT）的成功，這些變體使用某種形式的知識蒸餾來顯着減小模型大小並提高速度。一些人使用了BERT的變體TinyBERT，並將其應用於基於關鍵字的搜索解決方案。此項目的靈感來自於該搜索解決方案，該解決方案用於理解Google提出的搜索。該體系結構的很大一部分是，它可以在標準CPU上工作，並且可以用於改善和理解搜索結果。

5.4 主動轉移學習

Rober Monarch這篇有關主動轉移學習的博客文章十分有趣，這是他即將出版的《Human-in-the-loop Machine Learning》一書的一部分。他目前正在寫很棒的博客文章，介紹結合人與機器智能解決問題的方法，他還提供了所討論方法的隨附PyTorch實現。

5.5 Revealing the Dark Secrets of BERT

Anna Roger撰寫了一篇有趣而有趣的博客文章， the Dark Secrets of BERT，其中討論了經過微調的BERT的實際情況，以及所宣稱的優勢是否用於處理諸如情感分析，文本含義和自然語言推斷等下游任務。分析的結果表明，BERT的參數過高，並且該框架的自注意力組件由於它與被編碼並用於推理的語言信息有關，所識別出的好處不一定特別如其所主張的。

6、Education 🎓

6.1 Neural Nets for NLP

CMU的NLP教授Graham Neubig已經發布了本學期提供的“ NLP神經網絡”課程的視頻。對於那些對現代NLP方法學習感興趣的人，我強烈推薦該播放列表。

6.2 深度學習數學

是否想深入研究深度學習方法背後的數學？這個視頻講座系列，已經擁有衆多演講者。

6.3 Python課程和教程

Python不僅在IT行業而且在數據科學領域也已成爲最受歡迎的編程語言之一。爲了向全世界的學習者提供Python的實踐知識，Google發佈了“Google IT Automation with Python Professional Certificate”課程。儘管該課程與ML或AI並沒有直接關係，但這絕對是精通Python語言的不錯的基礎課程，並且提供獎學金。

這是另一個很有前景的視頻系列，稱爲“Deep Learning (for Audio) with Python”，重點是利用Tensorflow和Python通過利用深度學習來構建與音頻/音樂相關的應用程序。

6.4 Deep Learning State of the Art

觀看Lex Fridman關於深度學習的最新研究和發展的視頻講座。他談到了諸如感知器，神經網絡，反向傳播，CNN，深度學習，ImageNet，GAN，AlphaGo和最新的Transformers等主題的重大突破，本講座是MIT深度學習系列的一部分。

6.5 在線學習和研究

有許多很棒的在線計劃可以在研究和學習中進行協作。我個人最喜歡的是MLT的數學閱讀課程，這項由Nightai發起的新的分佈式AI研究協作計劃。最近，有許多這樣的在線研究小組，它們是沉浸於ML世界的好方法。

6.6 The landscape of Reinforcement Learning

在網絡研討會上向Katja Hofmann博士學習強化學習的關鍵概念、方法，以及學習方向。

7、Notable Mentions ⭐️

查看適用於CIFAR-10的ResNet-18的PyTorch實現，該實現可實現約94％的準確度。

PyTorch 1.4發佈了！在此處查看發行說明。

Elona Shatri撰寫了一篇出色的摘要，說明了她打算如何使用深度學習進行光學音樂識別。

看博客文章的標題就知道啦：“貝葉斯深度學習案例”。

Chris Said分享了他在優化A/B測試樣本量方面的經驗，這是實用數據科學的重要組成部分。主題包括大樣本量的成本和收益以及從業人員的最佳實踐。

Neural Data Server (NDS) 是用於獲取轉移學習數據的專用搜索引擎，在此處閱讀有關方法和服務的信息。