Meta AI新發布的超大規模語言模型-OPT-175B

Meta AI在2022年5月3日新發布的OPT-175B模型,該模型是現階段第一個模型參數超過千億級別的開放模型,其次該模型與GPT-3相比,更加開放及便於訪問

具體開放性表現在如下幾個方面:

1.論文: 提供了某些能力是可能的存在證明,並揭示可以建立在此基礎上的一般思想

2. API訪問:允許研究人員探索和評估現有基礎模型的能力(例如,推理)和侷限性(例如,偏差)

3.模型權重:允許研究人員逐步改進現有模型,開發更深入的可解釋技術和更有效的微調方法

4.訓練數據:讓研究人員更好地理解訓練數據在模型行爲中的作用——例如,情境學習從何而來?(不過,有些數據可能很難公佈。)

5.計算:允許研究人員嘗試新的架構,培訓目標/程序,進行數據集消融,並在不同領域開發全新的模型。這具有最大的理解和改進潛力,但也相當昂貴。

項目地址https://github.com/facebookresearch/metaseq

論文地址https://arxiv.org/pdf/2205.01068.pdf

請求訪問權限地址:https://forms.gle/dag8g7nKiR4o4VZq5

以下爲Meta AI官網的發佈聲明。

大型語言模型--具有超過 1000 億個參數的自然語言處理 (NLP) 系統——在過去幾年中改變了 NLP 和 AI 研究。基於大規模不同體量的文本訓練,這些模型在生成創意文本、解決基本數學問題、回答閱讀理解問題等方面表現出驚人能力。雖然在某些情況下,公衆可以通過付費 API 與這些模型進行交互,但全部的研究訪問權限仍然僅限於少數資源豐富的實驗室中。這種受限訪問限制了研究人員理解這些大型語言模型如何以及爲什麼工作的能力,阻礙了提高其穩健性和減輕類似偏見和危害性等已知問題的努力的進展。

根據 Meta AI 對開放科學的承諾,我們正在分享 Open Pretrained Transformer (OPT-175B),一種公開可用的數據集訓練的具有 1750 億個參數的語言模型,以允許更多的社區參與瞭解這項基礎新技術。對於首次實現這種規模的語言技術系統,此次發佈包括預訓練模型以及訓練和使用它們所需的代碼。爲了保持完整性並防止濫用,我們將在非商業許可下發布我們的模型,以專注於研究用例。該模型的訪問權限將授予學術研究者,即隸屬於政府、民間社會和學術界組織的人員,以及世界各地的工業研究實驗室。

我們相信整個人工智能社區——學術研究人員、民間社會、政策制定者和工業界——必須共同努力,圍繞負責任的人工智能制定明確的指導方針,特別是負責任的大型語言模型,因爲它們在許多下游語言應用中處於中心地位。人工智能社區中更廣泛的部分需要訪問這些模型,以便進行可重複的研究並共同推動該領域的發展。隨着 OPT-175B 和小規模基線的發佈,我們希望增加定義此類技術倫理考慮的話語多樣性。

OPT-175B 的責任發佈

根據人工智能夥伴關係爲研究人員制定的出版指南,以及NIST在2022年3月概述的治理指南(第3.4節),我們發佈了所有記錄開發過程的筆記,包括詳細描述日常訓練過程的完整日誌,以便其他研究人員可以更容易地在我們的工作基礎上進行構建。此外,這些細節揭示了用於訓練OPT-175B的計算量,以及當底層基礎設施或訓練過程本身在規模上變得不穩定時所需的人力開銷。

我們正在共享 OPT-175B,以及僅使用16 個 NVIDIA V100 GPU 來訓練和部署模型的代碼庫,以增加這些模型的可訪問性,專門用於研究目的,併爲分析根植於可量化的潛在危害提供基礎通用共享模型上的指標。我們還全面發佈了一套更小規模的基線模型,在相同的數據集上進行訓練,並使用與 OPT-175B 類似的配置,以使研究人員能夠單獨研究規模的影響。這些小規模模型的參數計數包括1.25億、3.5億、13億、27億、67億、130億和300億(660億即將發佈)。

負責任的計算

人工智能研究的最新進展消耗了大量的計算能力。雖然行業實驗室已經開始報告這些模型的碳足跡,但大多數不包括與實驗的研發階段相關的計算成本,在某些情況下,這可能比訓練最終模型的資源密集型多一個數量級。

我們在開發OPT-175B時考慮到了能源效率,成功地訓練了這種規模的模型,只使用了GPT-3的1/7的碳足跡。這是通過結合Meta的開源完全分片數據並行(FSDP) API和NVIDIA的張量並行抽象在Megetron-LM中實現的。我們在NVIDIA的80gb A100 GPU上實現了約147 TFLOP/s/GPU的利用率,比NVIDIA研究人員公佈的在類似硬件上的利用率大約高17%。

通過共享這些基線和代碼庫來有效地訓練175B模型,我們有機會減少我們集體的環境足跡,同時也允許以一致的方式測量該領域的新結果和進展。

通過開放合作推動研究向前發展

爲了推進人工智能研究,更廣泛的科學界必須能夠與前沿模型合作,有效地探索它們的潛力,同時也探索它們的弱點。與我們之前的開放科學計劃一樣,如圖像相似性挑戰、深度造假檢測挑戰和可惡的表情包挑戰,Meta AI認爲,跨研究機構的合作對負責任的人工智能技術的發展至關重要。

雖然在大型語言模型領域有許多令人興奮的發展,但這些模型所帶來的限制和風險仍然沒有被很好地理解。如果不能直接使用這些模型,研究人員爲可能的危害設計檢測和緩解策略的能力也有限,這使得檢測和緩解工作只掌握在那些有足夠資金使用這種規模模型的人手中。我們希望OPT-175B將爲大型語言模型創建的前沿帶來更多的聲音,幫助社區共同設計負責任的發佈策略,併爲該領域的大型語言模型的開發增加前所未有的透明度和開放性。

這裏訪問開放源代碼和小規模預訓練模型,在這裏請求訪問OPT-175B,在這裏閱讀論文。

預訓練模型均根據OPT-175B許可協議進行許可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章