NLP簡報（Issue#8）

此外，復旦大學邱錫鵬老師團隊整理了超全的NLP預訓練模型綜述，Pre-trained Models for Natural Language Processing: A Survey。該文從四個方面對用於NLP的預訓練模型進行了全面的回顧：①首先簡要介紹了語言表示學習及相關研究進展；②其次從四個方面對現有 PTM 進行系統分類（Contextual、Architectures、Task Types、Extensions）；

1.2 通過Grand Tour可視化神經網絡

Grand Tour是一種線性方法（不同於t-SNE等非線性方法），可將高維數據集投影到二維。Li等人在新的Distill文章，Visualizing Neural Networks with the Grand Tour中，提出使用Grand Tour功能來可視化神經網絡在訓練時的行爲。分析了感興趣的一些行爲：包括權重變化及其對訓練過程的影響，神經網絡中的層到層通信，對抗示例在呈現給神經網絡時的效果等。

1.3 低資源藥物發現的元學習初始化

大量事實證明，元學習可以使得深度學習在少樣本學習基準上有所改進，當遇到數據有限的情況時就非常有用，比如藥物發現中的典型情況。最近的一項工作，Meta-Learning Initializations for Low-Resource Drug Discovery，應用了一種稱爲模型不可知元學習（Model-Agnostic-Meta-Learning，MAML）和其他變體的元學習方法來預測低資源環境下的化學性質和活性。結果表明，元學習方法的性能與多任務預訓練基準相當。

1.4 NeRF：將場景表示爲用於視圖合成的神經輻射場

加州大學伯克利分校，谷歌研究中心和加州大學聖地亞哥分校的研究人員進行了激動人心的工作，提出了一種用於合成複雜場景的新穎視圖的方法，NeRF。該模型使用RGB圖像輸入集合，獲取5D座標（空間位置和方向），訓練全連接的DNN以優化連續的體積場景功能，併爲此位置輸出體積密度和與視圖相關的RGB輻射。輸出值沿着照相機光線組合在一起並渲染爲像素。這些渲染的可微分輸出用於通過最小化渲染RGB圖像中所有攝像機光線的錯誤來優化場景表示。與其他用於視圖合成的性能最高的方法相比，NeRF在質量和數量上都更好，並且可以解決渲染中的不一致問題，例如缺少精細的細節和不必要的閃爍僞影。

1.5 Dreamer簡介：使用世界模型的可擴展強化學習

Dreamer是一種強化學習（RL）代理，旨在解決模型中存在的一些侷限性，例如shortsightedness和computational inefficiency。這是一種用於解決困難任務的model-free和model-based代理程序。這是由DeepMind和Google AI研究人員提出的RL代理，通過訓練以對世界建模，還提供了使用模型預測通過反向傳播學習long-sighted行爲的能力。根據提供的圖像輸入，在20個連續控制任務上獲得SoTA結果。此外，該模型具有數據效率，並且可以並行進行預測，從而使計算效率更高。下圖總結了訓練代理以實現不同目標的三個任務：

1.6 機器學習分享社區

Made With ML是一個公開的機器學習分享社區，裏面包含了諸如項目代碼、博客文章、學習課程、求職相關等內容。

2、Creativity, Ethics, and Society 🌎

2.1 COVID-19公開研究數據集

爲了鼓勵使用AI對抗COVID-19，AI的艾倫研究所發佈了COVID-19開放研究數據集（CORD-19），這是一種免費開源資源，可促進全球研究合作。數據集包含數千篇學術文章，這些文章可以讓NLP啓發性研究有助於對抗COVID-19。

2.2 SECNLP：臨牀自然語言處理中的embedding綜述

SECNLP是一份綜述論文，其中詳細介紹了在臨牀領域中應用的各種NLP方法和技術，概述主要強調嵌入方法，使用嵌入解決的問題/挑戰以及對未來研究方向的討論。

2.3 用於3D生成設計的AI

這篇文章，AI for 3D Generative Design介紹了一種用於從自然語言描述中生成3D對象的方法。這個想法是創建一個解決方案，使設計人員可以快速重申設計過程並能夠更廣泛地探索設計空間。在創建由3D模型和文本描述組成的設計空間的知識庫之後，使用了兩個自動編碼器（請參見下圖）以一種可以直觀交互的方式對該知識進行編碼。然後，放在一起的模型可以接受文本描述並生成3D設計，感興趣可以在此3D生成設計demo中進行嘗試。

2.4 針對新冠疫情的事實問答

使用NLP（QA）和受信任的數據源來搭建API和Webapp回答有關COVID-19的問題。包括：

Staging: https://covid-staging.deepset.ai/
Prod: https://covid.deepset.ai/
API: https://covid-backend.deepset.ai/docs
🤖Telegram Bot: Add it to your account via @corona_scholar_bot

3、Tools and Datasets ⚙️

3.1 Stanza：用於多種人類語言的Python NLP庫

斯坦福NLP實驗室發佈了Stanza（以前稱爲StanfordNLP），這是一個Python NLP庫，它提供了適用於70多種語言的即用型文本分析工具，所有功能包括tokenization，multi-word token expansion，lemmatization，POS，NER等等。該工具基於PyTorch庫並支持使用GPU和預訓練的神經模型。 Explosion還在Stanza構建了一個包裝器，使你可以將其作爲spaCy管道與Stanza模型進行交互。

3.2 GridWorld

Pablo Castro創建了一個有趣的網站，GridWorld Playground，該操場爲創建Grid World環境提供了一個場景，以觀察和測試強化學習代理如何嘗試解決Grid World。一些功能包括實時更改學習/環境參數，更改代理的位置以及在兩個代理之間傳遞值。

3.3 X-Stance：用於stance檢測的多語言多目標數據集

Stance detection是主題對演員主張的反應的摘要，可用於假新聞評估。Jannis Vamvas和Rico Sennrich最近發佈了一個大規模stance detection數據集，其中包含瑞士選舉候選人的書面文字。文中提供了多種語言，這可能會導致對stance detection任務進行跨語言評估。作者還建議使用多語言BERT，以實現zero-shot跨語言和跨目標傳輸令人滿意的性能。特別地，跨目標學習是一項艱鉅的任務，因此作者使用一種涉及標準化目標的簡單技術，一次就所有問題訓練了一個模型。

3.4 爲Jupyter創建交互式文本熱圖

Andreas Madsen創建了一個名爲TextualHeatMap的Python庫，該庫可用於呈現可視化效果，例如在語言模型中幫助理解模型中句子的哪些部分來預測下一個單詞。

3.5 口罩人臉數據集

近期全球新型冠狀病毒肆虐，疫情嚴重地區（如武漢）幾乎人人戴口罩，具有海量樣本基數。武漢大學國家多媒體軟件工程技術研究中心收集樣本建立全球最大口罩人臉數據集，並向社會開放，爲當前及今後可能的類似公共安全事件智能管控積累數據資源。基於口罩人臉數據，設計相應口罩遮擋人臉檢測和識別算法，幫助社區封閉時的人員進出管控，車站、機場的人臉識別閘機以及人臉門禁考勤設備的升級，適應行人口罩蒙面遮擋的應用環境。相關數據集下載與使用請前往口罩遮擋人臉數據集（Real-World Masked Face Dataset，RMFD）下載吧！

3.6 Captum：Facebook的(PyTorch)模型可解釋性庫

Captum是PyTorch的模型可解釋性和理解庫。 Captum在拉丁語中是指理解，並且包含PyTorch模型的集成梯度，顯着性圖，smoothgrad，vargrad等的通用實現。它可以快速集成使用特定領域的庫（例如torchvision，torchtext等）構建的模型。

4、Articles and Blog posts ✍️

4.1 使用不同的解碼方法通過Transformers生成語言

HuggingFace發表了一篇文章，How to generate text: using different decoding methods for language generation with Transformers，解釋了用於語言生成的不同方法，特別是基於Transformer的方法。在討論的這些技術中，有貪婪搜索，波束搜索，採樣，top-k採樣和top-p（核）採樣。目前已經很多這樣的文章，但是作者花了更多時間解釋這些方法的實際方面以及如何通過代碼片段應用它們。

4.2 從零訓練Roberta

由於缺乏使用transformer庫從頭開始訓練類似BERT的語言模型的全面指南，Marcin Zablocki分享了這一詳細的教程，training-roberta-from-scratch-the-missing-guide-polish-language-model。該指南展示瞭如何爲波蘭語訓練一個transformer語言模型，並給出瞭如何避免常見錯誤，數據準備，預訓練配置，標記化，訓練，監控訓練過程以及共享模型的一些建議。

4.3 圖神經網絡結構化數據分析

Graph Neural Network（GNN）由於具有分析圖結構數據的能力而受到了廣泛的關注。Shanon Hong發表了一份不錯的博客，An Introduction to Graph Neural Network(GNN) For Analysing Structured Data對Graph Neural Network進行了簡要介紹。它涵蓋了一些圖論，以便於理解圖和分析圖時遇到的問題。然後介紹了不同形式的Graph神經網絡及其原理。它還涵蓋了GNN可以做什麼以及GNN的一些應用。

4.4 要用Albert換掉Bert嗎？

Naman Bansal在Medium上發表了博客討論我們將是否應該從BERT轉換到ALBERT？還是爲時過早？Should we shift from Bert to Albert?

5、Education 🎓

5.1 JAX入門（MLP，CNN和RNN）

Robert Lange最近發佈了關於如何使用JAX訓練GRU-RNN的全面教程tutorial，Getting started with JAX (MLPs, CNNs & RNNs)。在我們以前的NLP簡報中，我們還分享了一個與JAX相關的資源。

5.2 NLP開發人員：單詞嵌入

Rachael Tatman發佈了一個名爲NLP for Developers的系列教程，該系列涵蓋了如何應用各種NLP方法的最佳實踐。其中第一集包括單詞嵌入的介紹，如何使用以及其在應用它們時應避免的常見問題。

5.3 遷移學習和huggingface簡介

Thomas Wolf在NLP Zurich meetup介紹了他關於遷移學習的演講，transfer learning inNLP，爲NLP的遷移學習提供了很好的介紹。演講包括對NLP最新突破的概述，以及對HuggingFace團隊和貢獻者發佈的兩個最受歡迎的庫Transformers和Tokenizers的介紹。

5.4 基於FastAI2&PyTorch自監督教程

Epoching發佈了一篇有幫助的博客，Self-Supervision with FastAI對自我監督學習進行簡介。簡而言之，自我監督學習包含兩個組成部分：

預訓練一個預置任務，其中標籤可以來自數據本身
轉移特徵，並訓練實際的分類標籤！

5.5 機器學習免費書單

如果你正在學習機器學習，那麼這十本免費的書千萬不要錯過！Completely Free Machine Learning Reading List

6、Noteworthy Mentions ⭐️

你知道Google表格提供免費的翻譯功能嗎？ Amit Chaudhary分享了一篇文章，back-translation-in-google-sheets，其中顯示瞭如何利用該功能進行反向翻譯，這對於NLP任務中增強有限的文本語料庫很有用。

New York NLP將舉辦一個在線會議，Using Wikipedia and Wikidata for NLP，主題爲“使用Wikipedia和Wikidata 的NLP”，演講者將討論如何將Wikipedia用於不同的NLP項目和用例。

Lavanya Shukla撰寫了一份不錯的教程，Use Pytorch Lightning with Weights & Biases，有關如何使用PyTorch Lightning來優化神經網絡的超參數，同時使用PyTorch Lightning中提供的簡單代碼結構。使用WandB logger產生的結果，可以可視化結果模型及其在不同超參數下的性能，該結果可以作爲記錄器參數提供給訓練對象。

一組研究人員發表了一份研究，Rethinking Batch Normalization in Transformers，詳細研究了爲什麼批處理歸一化（BN）會降低應用於不同NLP任務的基於Transformer的方法的性能。基於這些發現，作者提出了一種稱爲功率歸一化（power normalization，PN）的新方法來處理BN中發現的問題。在各種NLP任務上，該方法的性能均優於BN和如今已普遍使用的層歸一化。

這篇博客文章，22 Timeless Reference Books 包含一長串書籍，可幫助你開始使用ML。