LLaMA大型語言模型

LLaMA (Large Language Model Meta AI)是Meta公司發佈的大型語言模型系列,近日LLaMA種子文件被合併到了GitHub 上,同時一些項目維護者給予了批准,目前該項目在 GitHub 已收穫 7k+ 個星。Meta 宣稱LLaMA 規模僅爲競爭對手 ChatGPT 的“十分之一”,但性能卻優於 OpenAI 的 GPT-3 模型。

LLaMA在github開源

 

  有網友認爲這次泄露事件是 Meta 方有意爲之,另外一些網友認爲只是單純地被泄露。目前,Meta 方面暫未對此事做出迴應。有 Meta 員工表示:“Meta 員工可能沒有注意到或仍在思考如何做出反應,因此 PR 仍在進行中。”

  事實上,無論此事是否是 Meta 有意爲之,在部分網友看來,LLaMA 原本的設定就是申請之後即可下載,“被公開是遲早的事情”。

什麼是LLaMA

LLaMA是Meta(前臉書)於2月25日首次推出的大型語言模型,相當於超快超小型GPT-3,參數量只有後者的10%,只需要單張GPU就能運行。

Meta 2月25日發佈大型語言模型LLaMA

 

 

公司 CEO 扎克伯格表示,LLaMA 旨在幫助研究人員推進研究工作,LLM(大型語言模型)在文本生成、問題回答、書面材料總結,以及自動證明數學定理、預測蛋白質結構等更復雜的方面也有很大的發展前景。能夠降低生成式 AI 工具可能帶來的“偏見、有毒評論、產生錯誤信息的可能性”等問題。

扎克伯格對LLaMA的看法

 

 

 

 

  與 OpenAI 的 GPT-3 相比,Meta 在一開始就將 LLaMA 定位成一個“開源的研究工具”,該模型所使用的是各類公開可用的數據集(例如 Common Crawl、維基百科以及 C4)。項目組成員 Guillaume Lample 在推文中指出,“與 Chinchilla、PaLM 或者 GPT-3 不同,我們只使用公開可用的數據集,這就讓我們的工作與開源兼容且可以重現。而大多數現有模型,仍依賴於非公開可用或未明確記錄的數據內容。”

  早在上週發佈時,Meta 就曾表示,LLaMA 可以在非商業許可下提供給政府、社區和學術界的研究人員和實體工作者,正在接受研究人員的申請。此外,LLaMA 將提供底層代碼供用戶使用,因此用戶可以自行調整模型,並將其用於與研究相關的用例。也就是說,各方貢獻者也能參與進來,讓這套模型變得越來越好。LLaMA 的官方博文也提到,“後續還需要更多研究,以解決大語言模型中的偏見、有害評論和捏造事實等風險。”

  此次非正式開源,或將標誌着這些科技巨頭們最優秀的大語言模型,正以前所未有的速度進入全球千行百業中,未來將以更豐富的產品形式讓用戶享受到先進的 AI 技術。

  超越 ChatGPT,LLaMA 強在哪裏?

  根據 Meta 官方發佈的消息,LLaMA 是一種先進的基礎語言模型,旨在協助研究人員在 AI 相關領域迅速開展工作。

  據悉,LLaMA 跟 OpenAI 的 GPT-3 模型差不多,LLaMA 模型是根據世界上二十種最流行的拉丁語和西裏爾字母語言文本訓練而成的。論文《LLaMA:開放且高效的基礎語言模型》(LLaMA:Open and Efficient Foundation Language Models)就將該模型與 GPT、Gopher、Chinchilla 及 PaLM 等同類成果做出了比較。後面這幾種模型都用到了廣泛的公共數據,但也引入了某些非公開可用或未記錄在案的文本數據。LlaMA 則僅使用公開可用的數據集進行訓練,所以雖然自身尚未開源,但該模型與開源原則完全兼容。

  從某種意義上講,LLaMA 是對 2022 年 3 月發表的 Chinchilla 模型及其論文《訓練計算優化型大模型》(Training Compute-Optimal Large Models)的直接反應。通過加州大學伯克利分校、哥倫比亞大學、芝加哥大學和伊利諾伊大學在 2021 年 1 月合作進行的大規模多任務語言理解(MMLU)基準測試,這篇論文探討了模型大小、算力預算、令牌數量、訓練時間、推理延遲和性能等問題。

  論文中的核心觀點是,AI 訓練與推理的最佳性能未必由大模型的參數量直接決定。相反,增加訓練數據並縮小模型體量纔是達成最佳性能的前提。這樣的訓練可能需要更多時間,但也會帶來有趣的意外收穫 —— 在推理新數據時,小模型的速度更快。爲了證明這一點,Chinchilla 的創建者一年前曾建議在 2000 億個令牌(一個令牌代表一個單詞片段)上訓練一套具有 100 億參數的模型。與之對應,LLaMA 的創建者稱自己的模型只有 70 億個參數,且仍在“繼續優化中”,但令牌量已經高達 1 萬億。

  LLaMA 模型還分別使用 67 億、130 億、320 億和 652 億幾種參數組合進行訓練,其中體量較小的兩種使用 1 萬億個令牌,後兩種較大的使用 1.4 萬億個令牌。Meta Platforms 採取了 2048 個英偉達 Ampere A100 GPU 加速器配合 80 GB HBM2e 內存,使用 1.4 萬億個令牌對規模最大的 LLaMA-65.2B 模型進行了測試,且訓練週期爲 21 天(每 GPU 每秒 380 個令牌)。

  這樣的速度並不算快,但 Meta AI 的研究人員表示,LLaMA-13B 模型“在大多數基準測試中都優於 GPT-3,且體積僅相當於後者的 1/139。”而且重點在於,“我們相信該模型有助於推動大語言模型的大衆化普及,因爲它完全能夠在單 GPU 上運行。而且在規模化模型層面,我們的 65B 參數模型也完全能夠與 Chinchilla 或者 PaLM-540B 等頂尖大語言模型相媲美。”

  與其他同類大模型的性能對比

  論文中列出大量性能比較,這裏我們挑出幾條來感受一下。下圖展示了各模型在“常識推理”任務中的零樣本性能表現:

 

 

  零樣本意味着利用一種數據訓練而成的模型,對另外一種數據類型進行處理,且無需專門針對新類別做重新訓練。(這也是大語言模型的強大之處,其具備自動擴展能力。)從表中的粗體部分可以看到,650 億參數的 LLaMA 達成或超越了除 PaLM-540B 兩個實例以外的其他所有模型,而且跟冠軍的表現也相當接近。GPT-3 也在其中,其 1750 億參數的版本雖然表現不錯,但準確率也沒有特別明顯的優勢。而且需要注意,GPT-3 的 1750 億參數相當於 LLaMA-65B 的 2.7 倍。

  在另一輪有趣的比較中,Meta Platforms 展示了 LLaMA 在人文、科學、技術與數學、社會科學及其他各領域的多選測試結果。我們來看以下圖表:

 

  這裏測試的是所謂 5-shot 準確率,也就是對於任何特定問題,源材料都至少對其提及 5 次,(隨着每次提及,答案的確定性水平都會提高,這與人類推理的過程非常相似。這反映的是除了確切知曉之外,我們也往往能從多選題中推斷出正確答案。)

  下圖也很重要,展示的是 LLaMA 在不同參數規模下,與 Chinchilla 模型之間的常識推理與問答基準測試差異:

 

  如圖所示,LLaMA-33B 和 LLaMA-65B 已經可以與 Chinchilla-70B 模型正面對抗,當令牌數量達到 1 萬億時甚至能夠反超。

  值得一提的是,在 NaturalQuestions 和 SIQA 問答測試中,這些基礎模型都及不了格——準確率過低,甚至距離及格線還有一段距離。各模型在 TriviaQA 測試中的得分在 D+ 到 C- 之間,在 WinoGrande 測試中得到 C- 至 C,在 HellaSwag 測試中得到 C 至 B,在 PIQA 測試中得到 C+ 至 B-。單從成績來看,現有大語言模型還算不上班裏的“尖子生”。

 

 

  Meta 的目標是在未來發布更大的模型,這些模型在更廣泛的預訓練數據集上進行訓練,同時它觀察到隨着規模的擴大,性能也在穩步提高。

  在這場爭奪 AI 霸主地位的競賽中,OpenAI 率先發布了 ChatGPT,谷歌很快以其 "實驗性 "聊天機器人 Bard 緊隨其後,而中國科技巨頭百度正計劃以 Ernie Bot- ERNIE 3.0 進入戰場。更不用說微軟聲稱正建立在 "新的下一代 OpenAI 大型語言模型 "基礎上的 Bing Chat(又名Sydney),它比 ChatGPT 更先進,而且還與 Bing 搜索整合。

 

LLaMA地址

https://github.com/faceb**kresearch/llama/pull/73/files

 

參考資料

https://news.cnblogs.com/n/737746/ 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章