微軟和英偉達推出訓練語言模型MT-NLG：5300億參數量，是GPT-3的3倍

原創

2021-10-12 14:13

數據集

數據集來源

Token (單位爲10億)

權重 (%)

輪次

Books3

Pile數據集

25.7

14.3

1.5

OpenWebText2

Pile數據集

14.8

19.3

3.6

Stack Exchange

Pile數據集

11.6

5.7

1.4

PubMed Abstracts

Pile數據集

4.4

2.9

1.8

Wikipedia

Pile數據集

4.2

4.8

3.2

Gutenberg (PG-19)

Pile數據集

2.7

0.9

BookCorpus2

Pile數據集

1.5

1.0

1.8

NIH ExPorter

Pile數據集

0.3

0.2

1.8

Pile-CC

Pile數據集

49.8

9.4

0.5

ArXiv

Pile數據集

20.8

1.4

0.2

GitHub

Pile數據集

24.3

1.6

0.2

CC-2020-50

Common Crawl (CC)快照

68.7

13.0

0.5

CC-2021-04

Common Crawl (CC) 快照

82.6

15.7

0.5

RealNews

RealNews

21.9

9.0

1.1

CC-Stories

Common Crawl (CC) stories

5.3

0.9

0.5"}}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#C0C0C0","name":"user"}}],"text":"圖二：用於訓練MT-NLG模型的數據集。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"結果與成就"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"近期在語言模型（LM）領域的工作表明，強大的預訓練模型往往能夠在無需微調的情況下實現極具競爭力的廣泛 NLP 任務處理能力。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲了理解縱向擴展語言模型在零樣本或少樣本場景下實現的具體學習能力增強水平，微軟和英偉達的研究人員對 MT-NLG 開展評估，並證明它在多種 NLP 任務中均獲得了最佳結果。爲了保證評估的全面性，研究人員選擇了跨五大領域的八項不同任務："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在文本預測任務 LAMBADA 中，模型預測特定段落的最後一個單詞。在閱讀理解任務 RACE-h 與 BooIQ 中，模型根據特定段落生成問題的答案。在常識推理任務 PiQA、HellaSwag 與 Winogrande 中，各項任務都需要一定程度的常識指導，超出了傳統語言統計模式的解決範疇。在自然語言推理方面，採用 ANLI-R2 與 HANS 兩項過往模型普遍無法通過的硬基準測試。詞義消歧任務 WiC，結合上下文評估多義詞理解。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲了驗證可重複性，研究人員還以開源項目 Im-evaluation-harness 爲基礎開展評估並做出了適當調整，確保設置與之前的工作負載保持高度一致。在零樣本、單樣本與少樣本等場景下評估了 MT-NLG，且沒有執行最佳樣本數搜索。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"圖三爲準確度指標結果。如果測試集爲公開可用，會在測試集上直接評估；對於非公開測試集，則直接報告使用開發數據集獲得的數字。評估中只有 LAMBADA、RACE-h 以及 ANLI-R2 屬於公開測試集，其他均屬於開發數據集。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"embedcomp","attrs":{"type":"table","data":{"content":"

類別

任務

零樣本

單樣本

少樣本

補全預測

Lambada

0.766*

0.731*

0.872*

閱讀理解

BoolQ

0.782

0.825

0.848

閱讀理解

RACE-h

0.479

0.484

0.479

常識推理

PiQA

0.820*

0.810*

0.832*

常識推理

HellaSwag

0.802

0.824

常識推理

WinoGrande

0.730

0.737

0.789

自然語言推理

ANLI-R2

0.366

0.397

0.396

自然語言推理

HANS

0.607

0.649

0.702

詞義消歧

WiC

0.486

0.513

0.585"}}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#C0C0C0","name":"user"}}],"text":"圖三：使用NT-NLG進行零樣本、單樣本與少樣本評估時獲得的準確率結果。MT-NLG在所有三種設置（以*表示）中均在PiQA開發集與LAMBADA測試集上獲得了最高得分，並在其他類別的同類單體模型中同樣拿下最佳結果。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"以少樣本性能爲例，研究人員觀察到 MT-NLG 具備不錯的提升效果，特別是在 WiC 與 ANLI 這類對先前模型極具挑戰的句子間關係比較或聯繫等任務當中。此外，在零樣本與單樣本評估中同樣看到了廣泛的性能提升效果。另外需要注意的是，與以往模型相比，MT-NLG 模型對訓練數據集中的標記依賴性更低，這代表着模型規模越大、學習速度反而越快。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對於 HANS 數據集，研究人員沒有找到任何報告數據集範圍指標的基準。但根據 HANS 論文的分析，在 MNLI 上訓練的 BERT 基準能夠在約半數子類上獲得近乎完美的結果，但在另一半上得分卻趨近於零。這表明原有模型高度依賴於論文中確定的僞句法啓發式方法。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在零樣本、單樣本與少樣本場景中，MT-NLG 在 PiQA 開發集與 LAMBADA 測試集上都拿下了最高分。除了報告基準任務的彙總指標之外，研究人員還對模型輸出進行了定性分析，並得出了更多有趣發現：即使符號經過嚴重混淆（示例2），模型仍然可以結合上下文推理出基礎數學運算（示例1）。雖然還不能說 MT-NLG 真正具備自述能力，但該模型似乎已經超出了記憶算術的範疇。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外，研究人員還展示了來自 HANS 任務的樣本。在此任務中，研究人員將包含簡單句法結構的任務作爲問題，提示模型給出答案。儘管結構非常簡單，但現有自然語言推理（NLI）模型往往很難處理此類輸入。微調模型則需要從 NLI 數據集中的系統念頭中提取某些句法結構與蘊含關係之間的僞關聯。但 MT-NLG 無需任何微調，就能在這類場景下帶來頗具競爭力的表現。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"embedcomp","attrs":{"type":"table","data":{"content":"

任務

示例1

示例2

推理數學運算

提示:

Q: 11 # 2 = ?

A: 5.5

Q: 18 # 9 = ?

A: 2

Q: 35 # 4 = ?

A: 8.75

Q: 27 # 9 = ?

A: 3

Q: 75 # 6 = ?

A:MT-NLG:12.5

Q: 45 # 5 = ?

A: 9

Q: 18 # 6 = ?

A: 3

提示:

Q: 11 $^% 2 = ?

A: 22

Q: 3 $^% 9 = ?

A: 27

Q: 12 $^% 4 = ?

A: 48

Q: 7 $^% 7 = ?

A: 49

Q: 8 $^% 5 = ?

A:MT-NLG:40

Q: 9 $^% 6 = ?

A: 54

Q: 10 $^% 5 = ?

A: 50

不同句法結構的自然語言推理

提示：

銀行家忘記了法官給教授們提供的建議。

問：法官給教授們建議。對或錯？答案：

MT-NLG：是的。銀行家忘記了法官給教授們提供了建議。

提示：

著名教授支持祕書。

問：教授支持祕書。對或錯？

答案：

MT-NLG：是的。祕書得到了著名教授的支持。"}}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#C0C0C0","name":"user"}}],"text":"圖四：NT-NLG在不同句法結構下的數學運算與自然語言推理示例。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"雖然大規模語言模型確實推動着語言生成技術的不斷進步，但其中也存在着嚴重的偏差\/偏見與污染問題。研究人員發現，MT-NLG 模型繼承了它從訓練數據中獲得的刻板印象與偏見，當前，微軟與英偉達正在努力解決這個問題。此外，研究人員表示，在生產場景中使用 MT-NLG 還需要配合適當措施，用以確保緩解並最大程度降低對用戶造成的潛在傷害。"}]}]}