“萬物就只是5萬億個參數”,AI模型GPT-3讓人懷疑人生

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

F5E9BAD6_774A_4e19_9A3C_F94B2A93969D

這幾天轟動硅谷的 GPT-3 是什麼來頭?

相信不太瞭解 AI 的朋友這幾天也或多或少看到了一些關於 GPT-3 的重磅消息,甚至有媒體稱其爲 “繼比特幣之後又一個轟動全球的現象級新技術”。

請注意,現在站在你面前的是:互聯網原子彈,人工智能界的卡麗熙,算力吞噬者,黃仁勳的新 KPI ,下崗工人制造機,幼年期的天網 —— 最先進的 AI 語言模型 GPT-3。

80179F97_2982_4974_B6F7_6B48233DAC4A

1750 億參數組成的訓練模型

言歸正傳,OpenAI 的研究人員在上個月發表了一篇論文,描述了 GPT-3 的開發,正式發佈了這個由 1750 億個參數組成的 AI 語言模型。
在 NLP 領域中,通常採用 ELMo 算法的思想,即通過在大量的語料上預訓練語言模型,然後再將預訓練好的模型遷移到具體的下游NLP任務,從而提高模型的能力。GPT 模型是 OpenAI 在 2018 年提出的一種新的 ELMo 算法模型,該模型在預訓練模型的基礎上,只需要做一些微調即可直接遷移到各種 NLP 任務中,因此具有很強的業務遷移能力。

GPT 模型主要包含兩個階段。第一個階段,先利用大量未標註的語料預訓練一個語言模型,接着,在第二個階段對預訓練好的語言模型進行微改,將其遷移到各種有監督的 NLP 任務,並對參數進行 fine-tuning。

簡而言之,在算法固定的情況下,預訓練模型使用的訓練材料越多,則訓練好的模型任務完成準確率也就越高。
那麼 1750 億是什麼概念?曾有人開玩笑說,“要想提高 AI 的準確率,讓它把所有的測試數據都記下來不就行了?” 沒想到如今真有人奔着這個目標去做了……

在 GPT-3 之前,最大的 AI 語言模型是微軟在今年 2 月推出的 Turing NLG,當時擁有 170 億參數的 Turing NLG 已經標榜是第二名 Megatron-LM 的兩倍。沒錯,僅短短 5 個月的時間,GPT-3 就將頭號玩家的參數提高了 10 倍!Nivdia 的黃老闆看了看年初剛畫的產品算力曲線,發現事情並不簡單。

OpenAI 曾於 2019 年初發布 GPT-2,這一基於 Transformer 的大型語言模型共包含 15 億參數、在一個 800 萬網頁數據集上訓練而成,這在當時就已經引起了不小的轟動。整個 2019 年,GPT-2 都是 NLP 界最耀眼的明星之一,與 BERT、Transformer XL、XLNet 等大型自然語言處理模型輪番在各大自然語言處理任務排行榜上刷新最佳紀錄。而 GPT-2 得益於其穩定、優異的性能在業界獨領風騷。
而 GPT-3 的參數量足足是 GPT-2 的 116 倍,實現了對整個 2019 年的所有大型自然語言處理模型的降維打擊。

算力殺手
GPT-3 的論文長達 72 頁,作者多達 31 人。來自 OpenAI、約翰霍普金斯大學的 Dario Amodei 等研究人員證明了在 GPT-3 中,對於所有任務,模型無需進行任何梯度更新或微調,而僅通過與模型的文本交互指定任務和少量示例即可獲得很好的效果。

GPT-3 在許多 NLP 數據集上均具有出色的性能,包括翻譯、問答和文本填空任務,這還包括一些需要即時推理或領域適應的任務,例如給一句話中的單詞替換成同義詞,或執行 3 位數的數學運算。

當然,GPT-3 也可以生成新聞報道,普通人很難將其生成的新聞報道與人類寫的區分開來。是不是細思極恐?
通常來說,自然語言處理任務的範圍從生成新聞報道到語言翻譯,再到回答標準化的測試問題。那麼訓練這個龐然大物需要消耗多少資源呢?

8D2A9535_B228_4d08_87F2_384999E895D5

OpenAI 方面表示: “我們在 cuDNN 加速的 PyTorch 深度學習框架上訓練所有AI模型。每個模型的精確架構參數都是基於 GPU 的模型佈局中的計算效率和負載平衡來選擇的。所有模型都在微軟提供的高帶寬集羣中的 NVIDIA V100 GPU 上進行訓練。”

根據微軟早前公佈的信息,我們發現微軟給 OpenAI 提供的這臺超級計算機是一個統一的系統,該系統擁有超過 285000 個 CPU 核心,10000 個 GPU 和每秒 400G 的網絡,是一臺排名全球前 5 的超級計算機。

1EF26325_ADBC_491e_8893_CDB67FF4E200

GPT-3 就是在微軟這霸道的 “無限算力” 加持下誕生的,據悉其訓練成本約爲 1200 萬美元。

有什麼用?

既然訓練 GPT-3 需要如此苛刻的超級環境,民間的什麼 2080 Ti、線程撕裂者等家用級設備自然都是弟弟,那麼我們普通用戶要怎麼來用這個玩意兒呢?

目前,OpenAI 開放了少量 GPT-3 的 API 測試資格,商業公司、研究學者和個人開發者都可以申請,獲得資格的用戶可以通過遠程調用的方式體驗 GPT-3 的強大。當然,這個資格並不容易拿到……

3359A5B4_85DB_451d_8453_35E3B6805C9B

在國外,“ 拿到 GPT-3 測試資格 ” 已經成爲了一個“炫富”的新梗……
當然也有早期成功搶到測試資格的用戶。因爲 GPT-3 是一個史無前例的龐大語言模型,所以幾乎所有可以用文字表達的工作它都能勝任,你可以指導它回答問題、寫文章、寫詩歌、甚至寫代碼。
首先來看最基本的語言表達功能,下面是網友用 GPT-3 開發的自動回覆郵件工具,只需要輸入幾個簡要的回覆關鍵詞,GPT-3 就能自動生成一篇文筆流暢的回覆郵件:

CD7854F8_64D8_4db1_9D7B_EB18A8828C88

更深入一些,下面這位名叫 yash 的網友用 GPT-3 開發了一個 Python 驅動的財務報表,它可以將日常語言轉換成 Python 代碼來創建資產負載表:輸入“我今天投入了兩萬美元”、“後三個月的房租預付了 900 美元”這樣的自然語言,程序就能自動修改資產負債表上相應的項目數值。

AE7F6D8E_495C_4362_816E_47B2B1BC74D3

網友 Faraar Nishtar 調用 GPT-3 寫了一個小工具,能直接輸入自然文字生成他想要的 SQL 查詢代碼:

F122978E_DC6F_41b2_AF23_6DBB5C3B184A

網友 Sharif Shameem 開發出了一個新產品 Debuild。這是一個調用了 GPT-3 API 的網頁 app 快速生成器,在輸入框裏用自然語言進行描述,它就可以快速輸出你想要的用戶界面,比如輸入“生成一個像西瓜一樣的按鈕”:

8824D083_5478_42c7_B4E8_8551D98B909D

也有開發者給 GPT-3 做了圖靈測試,結果發現它的回答很有意思:

AA6BDC5E_51A8_4f83_AAEE_8BEAE7073CB3

“如果在十年前用同樣的問題做測試,我會認爲答題者一定是人。現在,我們不能再以爲 AI 回答不了常識性的問題了。”
古人云,“熟讀唐詩三百首,不會作詩也會吟。” 從人類歷史到軟件代碼,龐大的 GPT-3 模型囊括了互聯網中很大一部分用文字記錄下來的人類文明,這些記錄造就了其強大的文字任務處理能力。

AI 語言模型參數量級近年來呈指數倍發展,隨着在摩爾定律下人類設備算力的提升,在未來的某一天,或許真的將會出現一個無限接近熟讀人類歷史所有文明記錄的超級模型,屆時是否會誕生出一個真正的人工智能呢?

A6735809_2167_4bbd_ABE9_BE4D419893ED

最後引用神經網絡之父、圖靈獎獲得者 Geoffrey Hinton 早前對 GPT-3 的一番評論:
“鑑於 GPT-3 在未來的驚人前景,可以得出結論:生命、宇宙和萬物的答案,就只是 4.398 萬億個參數而已。”

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-08-01
本文作者:人工智能學家
本文來自:“人工智能學家”,瞭解相關信息可以關注“人工智能學家

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章