OpenAI發佈具有1750億個參數的GPT-3 AI語言模型

論文地址:https://arxiv.org/abs/2005.14165
guthub:https://github.com/openai/gpt-3

OpenAI的一組研究人員最近發表了一篇論文,描述了GPT-3,這是一種具有1,750億個參數的自然語言深度學習模型,比以前的版本GPT-2高100倍。該模型經過了將近0.5萬億個單詞的預訓練,並且在不進行微調的情況下,可以在多個NLP基準上達到最先進的性能。
在這裏插入圖片描述

在arXiv上發表的論文中,由30多位合著者組成的團隊描述了該模型和幾個實驗。研究人員的目標是生產一種NLP系統,該系統可以很好地執行各種任務,而幾乎不需要微調,並且以前的工作表明較大的模型可能是解決方案。爲了檢驗該假設,研究小組將其先前模型GPT-2的大小從15億個參數增加到1750億個。爲了進行培訓,團隊收集了幾個數據集,包括Common Crawl數據集和英語Wikipedia。該模型是根據多個NLP基準進行評估的,匹配了“已關閉”問題解答任務的最新性能,併爲LAMBADA創造了新記錄 語言建模任務。
在這裏插入圖片描述
OpenAI去年成爲GPT-2的頭條新聞,由於“對技術的惡意應用的擔憂”,他們決定不發佈經過訓練的模型的15億參數版本。GPT-2是基於Transformer架構的許多大型NLP模型之一。這些模型 使用自我監督學習在大型文本語料庫(例如內容Wikipedia)上進行了預訓練。在這種情況下,不是使用包含輸入與預期輸出配對的數據集的模型,而是爲模型提供了帶有單詞“ masked”的文本序列,並且必須學習根據周圍的上下文預測被屏蔽的單詞。在進行此預訓練之後,然後使用帶有標籤的基準數據集對模型進行微調,以用於特定的NLP任務,例如問題解答。

但是,研究人員發現,即使不進行微調,預訓練的模型也表現良好,特別是對於在大型數據集上進行預訓練的大型模型。今年早些時候,OpenAI發表了一篇論文,假定Transformer模型的幾個“ 縮放定律 ”。根據來自多個不同基於Transformer的模型的性能數據,OpenAI得出結論,模型性能(在這種情況下,是測試數據集的交叉熵損失)與模型參數的數量,數據集的大小具有冪律關係。 ,以及用於訓練的計算量。增加這三個變量將因此提高性能。

爲了進行預培訓,團隊收集了一個由Common Crawl,WebText,英語Wikipedia和兩本書集組成的數據集。爲了提高數據質量,研究人員過濾了“常見爬網”以消除冗餘。由於Common Crawl是從互聯網上抓取的,因此它可能包含用於基準評估的實際測試數據,這會“污染”培訓。該小組確實試圖消除這種污染。但是,他們承認:

不幸的是,過濾中的錯誤導致我們忽略了一些重疊,並且由於訓練的成本,重新訓練模型是不可行的。

該團隊使用這些數據來訓練該模型的八個版本,範圍從1.25億個參數到完整的1,750億個參數。在許多類別的數十個NLP基準上對模型進行了評估,在許多情況下,其性能均接近或高於最新水平。爲了根據新聞文章生成任務評估模型,團隊使用了Amazon Mechanical Turk聘請人類法官來猜測一對文章中哪篇是真實的,哪些是由GPT-3生成的。人類僅在52%的時間內選擇了真實的商品;從本質上講,人類在選擇真實商品方面並不比硬幣翻轉更好。該團隊還討論了該模型的一些弱點。例如,在文本合成中,“ GPT-3樣本有時仍會在文檔級別進行語義上的重複,在足夠長的段落中開始失去連貫性,相互矛盾,並偶爾包含非語義的句子或段落。” 該模型還很難解決“常識物理”問題,例如“如果我將奶酪放進冰箱,它會融化嗎?”

NLP研究社區的幾位成員在Twitter上評論了該模型的大小。Alchemy API創始人艾略特·特納(Elliot Turner)推測,訓練最大模型的成本可能“接近1200萬美元”。Mark Riedl教授對模型尺寸與性能之間的聯繫提出瞭解釋:

一種假設是,GPT-3具有如此衆多的參數(訓練的令牌數量的一半),以至於它開始像存儲網絡一樣工作。

與GPT-2一樣,OpenAI尚未發佈經過​​訓練的模型或代碼,儘管存在一個GitHub存儲庫,其中包含一些測試數據集以及該模型生成的文本樣本的集合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章