NLP簡報（Issue#6）

本文首發於公衆號：NewBeeNLP

歡迎來到 NLP 時事簡報第六期！全文較長，建議收藏。

如果想讓自己有趣的研究/項目出現在NLP簡報中，歡迎在公衆號後臺留言聯繫我

來看看都有哪些內容，enjoy~

文章目錄

1、Publications 📙

2、Creativity and Society 🎨

3、Tools and Datasets ⚙️

4、Ethics in AI 🚨

5、Articles and Blog posts ✍️

6、Education 🎓

7、Noteworthy Mentions ⭐️

1、Publications 📙

1.1 BERT綜述

基於Transformer的模型已經被證實可以有效地處理從序列標記到問題解答等不同類型的NLP任務，其中一種稱爲BERT的模型得到了廣泛使用，但是像其他採用深度神經網絡的模型一樣，我們對其內部運作知之甚少。一篇名爲《 A Primer in BERTology: What we know about how BERT works》的新論文旨在回答一些有關BERT爲什麼在這麼多NLP任務中表現良好的問題。論文的內容包括：BERT學習的知識類型及其表示的位置，BERT是如何學習知識的，以及研究人員如何使用其他方法來改進它，等等。

1.2 T5

Google AI最近發佈了一種方法，該方法將從NLP遷移學習模型中學到的所有知識和經驗彙總到一個稱爲Text-to-Text Transfer Transformer（T5）的統一框架中。這項工作建議大多數NLP任務可以用文本到文本的格式來表示，這表明輸入和輸出都是文本。作者聲稱，這種“框架爲預訓練和微調提供了一致的訓練目標”。 T5本質上是一種編碼器/解碼器Transformer，特別是對模型的attention組件進行了各種改進。該模型在新發布的名爲Colossal Clean Crawled Corpus（C4）的數據集上進行了預訓練，並在NLP任務（例如摘要，問題回答和文本分類）上獲得了SOTA結果。

1.3 12合1：多任務視覺和語言表示學習

當前的研究使用獨立的任務和數據集來執行視覺和語言研究，即使執行這些任務所需的“具有視覺基礎的語言理解技能”也是如此。一篇新論文（將在CVPR上發表），《12-in-1: Multi-Task Vision and Language Representation Learning》，提出了一種大規模多任務方法，以更好地建模並共同訓練視覺和語言任務以生成更通用的視覺和語言模型。該模型減小了參數大小，並且在基於字幕的圖像檢索和可視問題解答等任務上表現出色。

1.4 BERT文本表示的跨模式可傳遞性

衆多研究人員和合作者發表了一篇論文，BERT Can See Out of the Box: On the Cross-modal Transferability of Text Representations，旨在回答BERT模型是否可以產生可以推廣到諸如視覺之類的文本之外的其他方式的問題。他們提出了一種稱爲BERT-gen的模型，該模型利用了單模態或多模態表示，並在視覺問題生成數據集上獲得了改進的結果。

2、Creativity and Society 🎨

2.1 The Next Decade in AI

Gary Marcus最近發表了一篇論文，The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence，他在其中解釋了一系列步驟，他認爲，我們應該採取這些步驟來構建更強大的AI系統。 Gary在論文中的中心思想是着重於構建由認知模型指導的混合和知識驅動系統，而不是着重於構建需要更多數據和計算能力的大型系統。

2.2 2020年的10種突破性技術

MIT Technology Review 出版了一份清單，列出了他們確定的10項突破，這些突破將對解決可能改變我們的生活和工作方式的問題產生影響。列表如下（排名不分先後）：unhackable internet, hyper-personalized medicine, digital money, anti-aging drugs, AI-discovered molecules, satellite mega-constellations, quantum supremacy, Tiny AI, differential privacy, and climate attribution.

2.3 重新考慮機器學習的發表過程

Yoshua Bengio最近寫了關於ML出版物快節奏發展的擔憂。主要擔心的是，由於發佈的速度快，很多論文都包含錯誤並且只是漸進式出版，而花費更多的時間並確保嚴謹（這是多年以前的工作方式）似乎正在消失。最重要的是，學生是那些必須應對這種壓力和壓力的負面後果的人。爲了解決這種情況，Bengio談論了他的行動，以幫助減慢研究出版物的發展，以造福科學。

3、Tools and Datasets ⚙️

3.1 AllenNLP中的PointerGenerator網絡實現

Pointer-Generator網絡旨在增強用於改進抽象摘要的序列到序列注意模型。如果您希望使用AllenNLP進行Pointer-Generator抽象摘要，Kundan Krishna已開發了一個庫，PointerGenerator network implementation in AllenNLP，該庫可讓您運行預先訓練的模型（提供）或訓練自己的模型。

3.2 不同語言的QA

隨着Transformer模型的發展以及它們對以其他語言執行的大規模NLP任務的有效性，人們付出了巨大的努力來發布不同語言的不同類型的數據集。例如，Sebastian Ruder共享了可用於不同語言問答研究的數據集列表：DuReader，KorQuAD，SberQuAD，FQuAD，Arabic-SQuAD，SQuAD-it和Spanish SQuAD。

3.3 PyTorch Lightning

PyTorch Lightning是一種可讓您抽象化可能需要設置GPU / TPU訓練和使用16位精度的訓練的工具。使這些事情正常工作可能會變得很乏味，但是好消息是PyTorch Lightning簡化了此過程，並允許您在多GPU和TPU上訓練模型，而無需更改當前的PyTorch代碼。

3.4 TF2中的圖神經網絡

Microsoft研究團隊發佈了一個庫，該庫提供對許多不同的圖神經網絡（GNN）架構的實現的訪問。該庫基於TensorFlow 2，還提供可直接在訓練/評估循環中使用的數據整理模塊。

3.5 預訓練 SmallBERTa

你是否曾經想從頭開始訓練自己的語言模型，但是沒有足夠的資源來訓練呢？如果是這樣，那麼Aditya Malte提供了一種優雅的方式，它教您如何使用較小的數據集從頭訓練語言模型。

3.6 CLUEDatasetSearch

CLUE benchmark團隊整理了所有中文NLP數據集，附常用英文NLP數據集，可以在CLUEbenchmark/CLUEDatasetSearch找到。

4、Ethics in AI 🚨

4.1 面部表情與真實情感

一段時間以來，許多研究人員和公司已嘗試建立可理解並可以識別文本或視覺環境中的情緒的AI模型。一篇新文章重新引發了辯論，Why faces don’t always tell the truth about feelings，即旨在直接從面部圖像識別情緒的AI技術做得不好。該領域的傑出心理學家提出的主要論點是，沒有證據表明可以僅從面部圖像進行情感檢測的通用表達方式。它將需要一個模型更好地瞭解人格特徵，身體動作等，才能真正更接近地更準確地檢測人類所表現出的情緒。

4.2 差異隱私和聯合學習

構建AI系統時的道德考量之一是確保隱私。當前，這可以通過兩種方式來實現，即使用差異隱私或聯合學習。如果你想了解更多有關這些主題的信息，Jordan Harrod在此視頻中爲我們做了很好的介紹，其中還包括使用Colab notebook的動手實踐課程。

5、Articles and Blog posts ✍️

5.1 深入Reformer

Madison May撰寫了一篇新博客文章，A Deep Dive into the Reformer，深入探討了Reformer，這是Google AI最近提出的一種新改進的基於Transformer的模型。在上一期新聞通訊中，我們也介紹了Reformer。

5.2 一個免費的博客平臺

fastpages允許你免費使用GitHub頁面自動建立博客。該解決方案簡化了發佈博客的過程，還支持使用導出的Word文檔和Jupyter notebook。

5.3 Google面試技巧

Google Brain團隊的Pablo Castro發表了一篇出色的博客文章，Tips for interviewing at Google，重點介紹了那些有興趣在Google求職面試的人的技巧。主題包括有關如何準備面試，面試過程中會發生什麼以及面試後會發生什麼的建議。

5.4 Transformer是圖神經網絡

圖神經網絡（GNN）和變壓器都已證明在不同的NLP任務上有效。爲了更好地理解這些方法背後的內部工作原理以及它們之間的聯繫，Chaitanya Joshi撰寫了一篇很棒的文章，Transformers are Graph Neural Networks，解釋了GNN與Transformers之間的聯繫以及這些方法可以以不同的方式組合成一種混合模型。

5.5 CNNs and Equivariance

Fabian Fuchs和Ed Wagstaff討論了等方差的重要性以及CNN如何實施。他們首先定義等方差的概念，然後在CNN的上下文中討論翻譯。

5.6 圖像自監督學習

由於自我監督在語言建模的現代技術中發揮了作用，因此在NLP簡報的前幾期中已經進行了很多討論。 Jonathan Whitaker的這篇博客文章提供了一個很好的，直觀的圖像自我監督解釋。如果你真的對該主題感興趣，Amit Chaudhary還撰寫了一篇出色的博客文章，以可視化方式描述自監督學習。

6、Education 🎓

6.1 Stanford CS330

斯坦福大學最近以YouTube播放列表的形式發佈了有關深層多任務和元學習的新課程的錄像。主題包括貝葉斯元學習，終身學習，強化學習入門，基於模型的強化學習等。

6.2 PyTorch Notebooks

dair.ai發佈了一系列教程，旨在幫助您開始使用PyTorch進行深度神經網絡學習。這是一項正在進行的工作，當前的一些主題包括如何從頭開始實現邏輯迴歸模型，以及如何從頭開始編程神經網絡或循環神經網絡。

6.3 fastai新書草稿

Jeremy Howard和Sylvain Gugger將爲即將舉行的課程發佈一份完整的教程fastbook，其中介紹了深度學習的概念以及如何使用PyTorch和fastai庫開發不同的方法。

6.4 免費數據科學課程

Kaggle提供了一系列免費的微型課程，可幫助您開始進行數據科學之旅。其中一些課程包括機器學習的可解釋性，機器學習和Python入門，數據可視化，特徵工程和深度學習等。

這是另一門不錯的在線數據科學課程，提供了課程表，幻燈片和botebook，內容涉及從探索性數據分析，模型解釋到自然語言處理等各種主題。

6.5 PyTorch生態系統

nepture.ai發表了一篇文章，8 Creators and Core Contributors Talk About Their Model Training Libraries From PyTorch Ecosystem，其中包含與核心創作者和貢獻者的詳細討論，討論了他們的旅程以及構建PyTorch及其工具的哲學。

6.6 可視化自適應稀疏注意模型

Sasha Rush分享了一部令人印象深刻的Colab notebook，該筆記本解釋並顯示瞭如何產生稀疏softmax輸出並將稀疏性引入Transformer模型的關注組件的技術細節，該組件有助於在給定上下文中對無關單詞產生零概率，從而提高了性能和可解釋性。

7、Noteworthy Mentions ⭐️

Conor Bell寫了這個非常棒的python腳本，使您可以查看和準備可用於StyleGAN模型的數據集。

Manu Romero爲西班牙語提供了一種經過微調的POS模型，該模型可在Hugging Face Transformer庫中進行調用。

該github庫，BERT-related-papers包含一長串精心挑選的與BERT相關的論文，這些論文涉及諸如模型壓縮，特定領域，多模型，生成，下游任務等不同問題。

Connor Shorten發佈了一個15分鐘的簡短視頻，Automatic Shortcur Removal for Self-supervised Learning，解釋了一個新的通用框架，該框架旨在減少自我監督表示學習中“sortcut”的影響。這一點很重要，因爲如果處理不正確，該模型可能無法學習有用的語義表示，並可能證明在轉移學習環境中無效。

Sebastian Ruder發佈了新一期的NLP News newsletter，主題和資源包括對2019年NLP和ML論文的分析，到用於學習有關轉移學習和深度學習要點的幻燈片。