NLP簡報（Issue#7）

本文發於微信訂閱號：NewBeeNLP，歡迎關注獲取更多幹貨資源。

歡迎來到NLP簡報第七期。 ❤️ 💛 💚

文章目錄

本文發於微信訂閱號：NewBeeNLP，歡迎關注獲取更多幹貨資源。

1、Research and Publications 📙

2、Creativity, Ethics, and Society 🌎

3、Tools and Datasets ⚙️

4、Articles and Blog posts ✍️

5、Education 🎓

6、Noteworthy Mentions ⭐️

1、Research and Publications 📙

1.1 合成泛化

在機器學習的背景下，合成泛化（compositional generalization）是指機器學習從一組訓練示例學習上下文表示。迄今爲止，尚不清楚如何正確地測量神經網絡中的compositionality。Google AI研究者在 ICLR 2020 上的論文《Measuring Compositonal Generalization: A Comprehensive Method on Realistic Data》，提出了使用問題解答和語義解析等任務進行compositional generalization的最大基準之一。下圖顯示了該種新模型，使用原子（prodece，direct等）來產生新化合物（即原子的組合）的示例。這項工作的想法是產生一個訓練測試拆分，其中包含共享相似原子（生成示例的構造塊）但具有不同化合物分佈（原子組成）的示例。作者聲稱這是測試compositional generalization的一種更可靠的方法。

1.2 微調預訓練語言模型

研究人員進行了一系列全面的微調試驗，以更好地瞭解權重初始化和早停對語言模型的效果，發表在論文《Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping》中。通過涉及對BERT進行數百次微調的各種實驗，發現不同的隨機種子會產生截然不同的結果。特別是，該研究報告稱，一些權重初始化在一組任務中確實表現良好。所有實驗數據和試驗均已公開發布，供有興趣進一步瞭解微調過程中不同動態的其他研究人員使用。

1.3 Zoom In

OpenAI研究人員發表了一篇文章，Zoom In: An Introduction to Circuits，討論了神經網絡的可解釋性狀態，並提出了一種解釋神經網絡的新方法的建議。受細胞生物學的啓發，作者通過檢查神經網絡的權重深入瞭解了視覺模型以及他們學到了什麼。本質上，該研究提出了他們認爲可以爲更好地解釋神經網絡鋪平道路的一些主張以及證據。

1.4 NLP Research Highlights

在dair.ai的新系列NLP Research Highlights中，詳細介紹了當前有趣且重要的NLP研究。通過對這些工作的總性，這將成爲跟蹤NLP進展的一種方式。在第一季度中，主題涉及從改進語言模型到改進對話代理到最新的語音識別系統。這些摘要也將保留在nlp_paper_summaries中。

1.5用圖網絡模擬複雜物理

在過去的幾個月中，由於圖神經網絡（GNN）不僅在NLP中有效，而且在基因組學和材料等其他領域也非常有效，因此我們一直在關注它們。在最近的一篇論文中，《Learning to Simulate Complex Physics with Graph Networks》，研究人員提出了一種基於圖網絡的通用框架，該框架能夠學習流體和可變形材料等不同領域的模擬。作者聲稱他們在不同領域都實現了最先進的性能，他們的通用方法可能是迄今爲止學得最好的物理模擬器。實驗包括對材料的模擬，例如在水上滑行以及其他與剛性障礙物的相互作用。他們還測試了關於分發任務的預訓練模型，並找到了可喜的結果，表明該框架已推廣到更大的領域。

1.6 特定語言BERT模型

Hugging Face Transformer庫中現在提供阿拉伯語BERT（AraBERT）。你可以訪問AraBERT模型以及對應的[AraBERT論文(https://arxiv.org/abs/2003.00104);

最近還發布了日語BERT以及波蘭語BERTPolbert。

2、Creativity, Ethics, and Society 🌎

2.1 COVID-19相關的蛋白質結構的計算預測

DeepMind公開與COVID-19相關病毒相關的蛋白質的計算預測結構，computational-predictions-of-protein-structures-associated-with-COVID-19。這些預測是直接從AlphaFold系統獲得的，但尚未經過實驗驗證。該開源的初衷是鼓勵爲更好地瞭解該病毒及其功能做出貢獻。

2.2 Court cases that sound like the weirdest fights

Janelle Shane分享了一個有趣實驗的結果，court-cases-that-sound-like-the-weirdest-fights，其中對GPT-2模型進行了微調以生成針對無生命物體的案例。該模型喂入了一系列政府扣押違禁品或危險品的案例，並生成了如下圖所示的案例。

2.3 以人爲中心的ML框架設計

Google AI公佈了對使用TensorFlow.js的645人的大規模調查結果，toward-human-centered-design-for-ml。他們旨在從非ML軟件開發人員那裏瞭解最重要的功能是什麼，以及他們在使用當前ML框架時的總體經驗。研究發現包括“缺乏對ML的概念性理解”阻礙了ML框架針對此特定用戶集的使用。該研究的參與者還報告了關於如何將ML模型應用於不同問題的需求

2.4 在瀏覽器中進行面部和手部跟蹤

這篇很棒的TensorFlow文章，Toward Human-Centered Design for ML Frameworks，提供瞭如何使用TensorFlow.js和MediaPipe在瀏覽器上啓用實時面部和手部跟蹤的演練。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-or3xtDzn-1584417581667)(https://cdn-images-1.medium.com/max/800/0*XsRsB-tSOZo9yWOc.gif)]

3、Tools and Datasets ⚙️

3.1 NLP Paper Summaries

我們最近創建了一個nlp_paper_summaries庫，其中包含經過精心挑選的NLP論文摘要列表，這些摘要是過去幾年中一些最有趣和最重要的NLP論文。着重於精選重要論文的論文摘要和博客文章，以幫助提高NLP主題和研究的可及性。

3.2 PyTorch的計算機視覺庫

Kornia 是建立在PyTorch之上的開源庫，它使研究人員可以使用一組運算符來使用PyTorch執行不同的計算機視覺。某些功能包括圖像轉換，深度估計和低級圖像處理等。它在很大程度上受到OpenCV的啓發，但不同之處在於，它旨在用於研究，而不是構建可投入生產的應用程序。

3.3 DIET簡介

DIET（Dual Intent and Entity Transformer）是Rasa提出的自然語言理解（NLU）多任務體系結構。該框架着重於多任務訓練，以改善意圖分類和實體識別方面的結果。 DIET的其他好處包括能夠使用任何當前的預訓練嵌入，例如BERT和GloVe。重點是要提供一個模型，這些模型可以提高這些任務的當前最新性能，並且訓練速度更快（據報道，速度提高了6倍）。該模型在Rasa開源python庫中可用.

3.4 迷失在衆多BERT模型中？

BERT Lang Street是一個簡潔的網站，它能夠搜索30種基於BERT的模型，其中包含18種語言和28個任務，共177個條目。例如，如果你想使用BERT模型找出最新的情感分類結果，則可以在搜索欄中搜索“情感”（如下面的圖片所示）。

3.5 Med7

Andrey Kormilitzin發佈了Med7 ，這是一種用於在電子健康記錄上執行臨牀NLP（特別是命名實體識別（NER）任務）的模型。該模型最多可以識別七個類別，並且可以與spaCy庫一起使用。

3.6 量子機器學習開源庫

TensorFlow Quantum是一個開放源代碼庫，提供了用於快速進行量子ML研究原型的工具箱，該工具箱應用ML模型來解決從醫學到材料的各種問題。

3.7 快速簡便的無限寬網絡

Neural Tangents是一個開放源代碼庫，允許研究人員使用JAX建立和訓練無限寬模型和有限神經網絡。可以閱讀相應地博客獲取更多信息，fast-and-easy-infinitely-wide-networks。

4、Articles and Blog posts ✍️

4.1 從 PyTorch 到JAX

Sabrina J. Mielke發表了一篇文章，From PyTorch to JAX: towards neural net frameworks that purify stateful code，其中提供了有關如何使用JAX構建和訓練神經網絡的演練。本文着重於在構建神經網絡時比較PyTorch和JAX的內部工作原理，這有助於更好地理解JAX的一些優點和區別。

4.2 Why do we still use 18-year old BLEU?***

在博客 Why do we still use 18-year old BLEU?中，Ehud Reiter談到了爲什麼我們仍然使用BLUE等舊的評估技術進行評估諸如機器翻譯之類的任務的NLP模型。作爲該領域的研究人員，他還表達了對對較新任務進行評估的技術的含義。

4.3 BART簡介

BART是Facebook提出的一種新模型，其中涉及一種用於對seq2seq模型進行預訓練的降噪自動編碼器，該模型可以改善下游文本生成任務（如抽象摘要）的性能。 Sam Shleifer提供了BART的摘要簡介，以及他如何將其集成到Hugging Face Transformers代碼庫中。

4.4 Transformer長程上下文綜述

Madison May最近寫了一篇有趣的綜述，A Survey of Long-Term Context in Transformers，描述了改進基於Transformer的方法，其中包括Sparse Transformers, Adaptive Span Transformers, Transformer-XL, compressive Transformers, Reformer以及routing transformer。

4.5 如何在自動文本編寫中控制樣式和內容

儘管自動文本書寫在過去的一年中展現了令人印象深刻的表現，但是控制諸如機器書寫文本的結構或內容之類的屬性仍然具有挑戰性。在最近的博客文章，“Mind your language, GPT-2”: how to control style and content in automatic text writing中，Manuel Tonneau從Hugging Face的GPT-2討論了可控文本生成領域的最新進展和觀點。該模型在arXiv上與Google的T5進行了微調，並提到了Salesforce的CTRL和Uber AI的PPLM。

5、Education 🎓

5.1 Python中NLP的未來發展

在我們以前的NLP簡報中，我們介紹了THiNC，這是一個功能深層學習庫，致力於與其他現有庫的兼容性。 Ines Montani在PyCon哥倫比亞的演講使用的PPTThe Future of NLP in Python引入了更多的庫。

5.2 Transformers Notebooks

HuggingFace發佈了一組Colab notebooks，可幫助他們開始使用流行的Transformers庫。一些notebook包括使用令牌化，設置NLP管道以及在自定義數據上訓練語言模型。

5.3 TensorFlow 2.0免費課程

在TensorFlow 2.0上查看此〜7小時免費課程，其中包含從基本神經網絡到NLP到強化學習的介紹。

5.4 DeepMind播客

DeepMind已爲其播客發佈了所有劇集，DeepMind: The Podcast，其中有科學家，研究人員和工程師討論主題涵蓋了AGI 到神經科學到機器人技術。

5.5 ML&DL課程

Berkeley的“深度無監督學習”課程已經公開發布整個教學大綱，主要側重於自我學習的理論方面監督學習和生成模型。一些主題包括潛在變量模型，自迴歸模型，流模型和自我監督學習等等，已經有提供YouTube視頻和幻燈片。

我們還發現了有關機器學習，NLP和深度學習的高級在線課程的令人印象深刻的列表，d_advanced_courses_update 。

這是另一門名爲“機器學習入門”的課程，其中包括諸如監督迴歸，性能評估，隨機森林，參數調整，實用建議等。

6、Noteworthy Mentions ⭐️

上一期的NLP簡報(Issue #6) 可以在這裏查看。

Connon Shorten發表瞭解釋ELECTRA模型的視頻，該模型提出了一種稱爲 replaced token detection的技術，可以更有效地對Transformers進行預訓練。如果您有興趣，我們也在此處寫了該模型的簡短摘要。

Rachael Tatman正在研究一個名爲面向開發人員的NLP 的新系列，其目的是在何時使用NLP的方法進行更深入的討論,使用它們並解釋你可能遇到的常見問題。

DeepMind在YouTube上發佈了AlphaGo-電影，以慶祝AlphaGo在Go遊戲中擊敗Lee Sedol四週年。