OpenAI發佈具有1750億個參數的GPT-3 AI語言模型

原創

2020-07-05 09:22

論文地址：https://arxiv.org/abs/2005.14165
guthub：https://github.com/openai/gpt-3
OpenAI的一組研究人員最近發表了一篇論文，描述了GPT-3，這是一種具有1,750億個參數的自然語言深度學習模型，比以前的版本GPT-2高100倍。該模型經過了將近0.5萬億個單詞的預訓練，並且在不進行微調的情況下，可以在多個NLP基準上達到最先進的性能。

在arXiv上發表的論文中，由30多位合著者組成的團隊描述了該模型和幾個實驗。研究人員的目標是生產一種NLP系統，該系統可以很好地執行各種任務，而幾乎不需要微調，並且以前的工作表明較大的模型可能是解決方案。爲了檢驗該假設，研究小組將其先前模型GPT-2的大小從15億個參數增加到1750億個。爲了進行培訓，團隊收集了幾個數據集，包括Common Crawl數據集和英語Wikipedia。該模型是根據多個NLP基準進行評估的，匹配了“已關閉”問題解答任務的最新性能，併爲LAMBADA創造了新記錄語言建模任務。

OpenAI去年成爲GPT-2的頭條新聞，由於“對技術的惡意應用的擔憂”，他們決定不發佈經過訓練的模型的15億參數版本。GPT-2是基於Transformer架構的許多大型NLP模型之一。這些模型使用自我監督學習在大型文本語料庫（例如內容Wikipedia）上進行了預訓練。在這種情況下，不是使用包含輸入與預期輸出配對的數據集的模型，而是爲模型提供了帶有單詞“ masked”的文本序列，並且必須學習根據周圍的上下文預測被屏蔽的單詞。在進行此預訓練之後，然後使用帶有標籤的基準數據集對模型進行微調，以用於特定的NLP任務，例如問題解答。

但是，研究人員發現，即使不進行微調，預訓練的模型也表現良好，特別是對於在大型數據集上進行預訓練的大型模型。今年早些時候，OpenAI發表了一篇論文，假定Transformer模型的幾個“ 縮放定律 ”。根據來自多個不同基於Transformer的模型的性能數據，OpenAI得出結論，模型性能（在這種情況下，是測試數據集的交叉熵損失）與模型參數的數量，數據集的大小具有冪律關係。，以及用於訓練的計算量。增加這三個變量將因此提高性能。

爲了進行預培訓，團隊收集了一個由Common Crawl，WebText，英語Wikipedia和兩本書集組成的數據集。爲了提高數據質量，研究人員過濾了“常見爬網”以消除冗餘。由於Common Crawl是從互聯網上抓取的，因此它可能包含用於基準評估的實際測試數據，這會“污染”培訓。該小組確實試圖消除這種污染。但是，他們承認：

不幸的是，過濾中的錯誤導致我們忽略了一些重疊，並且由於訓練的成本，重新訓練模型是不可行的。

該團隊使用這些數據來訓練該模型的八個版本，範圍從1.25億個參數到完整的1,750億個參數。在許多類別的數十個NLP基準上對模型進行了評估，在許多情況下，其性能均接近或高於最新水平。爲了根據新聞文章生成任務評估模型，團隊使用了Amazon Mechanical Turk聘請人類法官來猜測一對文章中哪篇是真實的，哪些是由GPT-3生成的。人類僅在52％的時間內選擇了真實的商品；從本質上講，人類在選擇真實商品方面並不比硬幣翻轉更好。該團隊還討論了該模型的一些弱點。例如，在文本合成中，“ GPT-3樣本有時仍會在文檔級別進行語義上的重複，在足夠長的段落中開始失去連貫性，相互矛盾，並偶爾包含非語義的句子或段落。” 該模型還很難解決“常識物理”問題，例如“如果我將奶酪放進冰箱，它會融化嗎？”

NLP研究社區的幾位成員在Twitter上評論了該模型的大小。Alchemy API創始人艾略特·特納（Elliot Turner）推測，訓練最大模型的成本可能“接近1200萬美元”。Mark Riedl教授對模型尺寸與性能之間的聯繫提出瞭解釋：

一種假設是，GPT-3具有如此衆多的參數（訓練的令牌數量的一半），以至於它開始像存儲網絡一樣工作。

與GPT-2一樣，OpenAI尚未發佈經過訓練的模型或代碼，儘管存在一個GitHub存儲庫，其中包含一些測試數據集以及該模型生成的文本樣本的集合。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

OpenAI發佈具有1750億個參數的GPT-3 AI語言模型

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Opencv學習筆記1：安裝opencv和VS2015並進行圖片測試

雷達原理知識點彙總

矩陣和向量--線性代數的本質--矩陣、線性變換、矩陣乘法與線性變換複合

OpenAI發佈具有1750億個參數的GPT-3 AI語言模型

3D點雲深度學習」綜述論文--Deep Learning for 3D Point Clouds: A Survey

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結