阿里發佈PLUG:270億參數,中文社區最大規模預訓練語言模型

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"今日,阿里巴巴正式發佈預訓練語言模型 PLUG,這是目前爲止中文社區最大規模預訓練語言模型,具備 270 億參數,剛剛在最權威的中文語言模型榜單 CLUE 上拿到了分類領域第一。"}]}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"阿里巴巴重磅發佈 PLUG"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"4 月 19 日,在以中文爲核心的超大規模語言模型領域,阿里巴巴達摩院機器智能實驗室重磅發佈最新訓練的 270 億參數規模的中文語言理解和生成統一模型 --PLUG (Pre-training for Language Understanding and Generation)。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"據瞭解,PLUG 採用了 1TB 以上高質量中文文本訓練數據,涵蓋新聞、小說、詩歌、問答等廣泛類型及領域,其模型訓練依託了阿里雲 EFLOPS 高性能 AI 計算集羣。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PLUG 超大規模預訓練中文理解 & 生成統一模型,是目前中文社區最大規模的純文本預訓練語言模型,集語言理解與生成能力於一身。其目標是通過超大模型的能力,大幅度提升中文 NLP 各大任務的表現,取得超越人類表現的性能。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"根據阿里巴巴達摩院的介紹,相較於 Open AI 的 GPT-3 等其他大規模生成模型,PLUG 具備如下幾個優勢:"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PLUG 是目前中文社區最大規模的純文本預訓練語言模型。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PLUG 集語言理解與生成能力於一身,在語言理解(NLU)任務上,以 80.179 分刷新了 Chinese GLUE 分類榜單的紀錄;在語言生成(NLG)任務上,在多項應用數據上較 State-of-the-art 平均提升 8% 以上。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PLUG 可爲目標任務做針對性優化,通過利用下游訓練數據 finetune 模型使其在該特定任務上生成質量達到最優,彌補之前其它大規模生成模型 few-shot inference 的生成效果不足,適於應用在實際生成任務。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PLUG 採用了大規模的高質量中文訓練數據(1TB 以上),同時,PLUG 採用 encoder-decoder 的雙向建模方式,因此,在傳統的 zero-shot 生成的表現上,無論是生成的多樣性,領域的廣泛程度,還是生成長文本的表現,較此前的模型均有明顯的優勢。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PLUG 開放了體驗功能供學術領域試用。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在最新的中文語言理解評測基準(CLUE)中,PLUG 研發團隊在 CLUE 的分類任務上測試了 PLUG 的語言理解能力,僅使用若干組超參數訓練的下游模型的 ensemble 結果,即取得了第一的成績。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/wechat\/images\/99\/99920c72dc27edab1b106a2e000dff94.png","alt":null,"title":null,"style":null,"href":null,"fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"注:中文語言理解評測基準(CLUE)是中文社區目前權威的預訓練語言模型評測的 benchmark,吸引了衆多國內企業的參與。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"PLUG 技術細節"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此前,達摩院機器智能實驗室自研的 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 均在各自領域取得了 SOTA 的效果。簡單來說,StructBERT 模型通過加強句子級別(Sentence Structural Objective)和詞級別(Word Structural Objective)兩個層次的訓練目標中對語言結構信息的建模,加強模型對於語法的學習能力。PALM 模型則結合了 Autoencoding 和 Autoregression 兩種預訓練方式,引入 Masked LM 目標來提升 encoder 的表徵能力,同時通過預測文本後半部分來提升 decoder 的生成能力。此次大規模語言模型的訓練,達摩院團隊汲取二者所長,提出了一個簡單的框架,用來進行 NLU&NLG 聯合訓練。相比於 GPT 系列模型,該大規模生成模型以 StructBERT 作爲 encoder,有着很強的輸入文本雙向理解能力,從而可以生成和輸入更相關的內容。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"整個訓練流程分爲兩個階段。首先在第一階段,達摩院團隊訓練了一個 24 layers/8192 hidden size 的標準 StructBERT 模型作爲 encoder。這個過程共計訓練了 300B tokens 的訓練數據,規模與 GPT-3 的訓練規模相當。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在第二階段,達摩院團隊將這個 encoder 用於生成模型的初始化,並外掛了一個 6 layers \/ 8192 hidden size 的 decoder,在訓練生成模型的過程中,在 encoder 端和 decoder 端均隨機確定長度 [32, 512] 進行數據採樣,確保適應下游廣泛的生成任務。這一階段共計訓練了 100B tokens 的訓練數據,前 90% 的訓練中,團隊保留了 Masked LM 任務以保持模型的 NLU 能力,後 10% 的訓練中,去掉 MLM 任務進行微調,以使得生成的 PPL 降到更低,能取得更好的生成效果。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"PLUG 生成示例展示"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PLUG 生成模型有着很強的長文本生成和建模能力,相比於 GPT 系列模型的單向建模,PLUG 對輸入的理解是雙向建模的,因此能夠在給定小段輸入的條件下,生成和輸入內容相關且信息量豐富的長文本。直接用預訓練好的模型在小說續寫、詩歌生成、菜譜生成等場景下測試,示例如下(以小說續寫和專業文稿撰寫爲例):"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"小說續寫"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"輸入:話說寶玉和鳳姐回家,見過衆人,寶玉便回明賈母要約秦鐘上家塾之事,自己也有個伴讀的朋友,正好發憤;又着實稱讚秦鍾人品行事,最是可人憐愛的。鳳姐又在一旁幫着說:“改日秦鍾還來拜見老祖宗呢。”說的賈母喜歡起來。鳳姐又趁勢請賈母一同過去看戲。賈母雖年高,"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"輸出:但身上還有幾分力氣,便命鳳姐陪她看戲。賈母一個勁兒的讓出一條道來,鳳姐便陪他到一邊。不想戲剛剛上場,只見從人堆裏,擠出兩個老人來,都是身着綢衣,頭上扎着兩根簪兒,後面跟着兩個老人。賈母一眼便認出來,這便是邢岫煙。這邢岫煙原是賈環的外孫女婿,邢夫人的外孫寶玉看了,也不覺的詫異。一時,那邢岫煙和賈環一干人等,就圍着賈母、鳳姐、秦鍾等。一時,邢岫煙又叫:邢夫人來。賈環等不勝其擾,一時都來到邢夫人的房門口。只見邢夫人正站在窗口,向窗內張望。邢岫煙便向邢夫人笑道:邢二嬸子,你看這窗戶這麼大,難道窗子不是賈環等聽見,都來看戲。只見邢夫人也在一旁,忙向邢夫人打聽起邢岫煙的來歷來。邢夫人聽見賈環在此,忙向邢岫煙說道:邢夫人,你也在這裏看戲。邢岫煙聽說,忙向邢夫人道:邢二嬸子,你來的正好,正好可以問問你。邢二嬸子,你可認得他麼?邢夫人道:認得。邢夫人笑道:你認得他嗎?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"專業文稿撰寫"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"輸入:目標檢測是計算機視覺的一個重要研究方向,其目的是精確識別給定圖像中特定目標物體的類別和位置。近年來,"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"輸出:視覺技術已經成爲計算機視覺領域中研究熱點,視覺智能的發展將對傳感方式、感知技術、圖像處理技術、自然語言處理等方面產生深刻影響。視覺傳感器在工業生產、軍事領域中的應用已越來越廣泛。但是我們在實際生產中經常遇到一些難題,例如傳感器的檢測難題,傳感器的校準難題,傳感器的應用領域不明確,傳感器的性能評估不一致等等,這些都是傳感器在工業生產中實際應用中遇到的難題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"中文預訓練模型發展現狀"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"自 18 年穀歌 BERT 橫空出世以來,預訓練語言模型一躍成爲自然語言處理領域的研究熱點,海量數據與大規模模型的預訓練 + 少量下游任務數據微調(Pre-training + Fine-tune)也成爲 NLP 任務的新範式。從在開源數據集上進行評測到業務實踐中的價值體現,預訓練語言模型都被證明能夠顯著提高模型性能和算法效果。如果說預訓練語言模型是 2019 年以來 NLP 領域的關鍵詞,隨着 GPT 系列模型的誕生,各大公司和研究機構的軍備競賽爲其又冠上了大規模這一限定詞。在這一態勢下,亟需建立以中文爲核心的超大規模預訓練模型。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2020 年 11 月份,北京智源人工智能研究院和清華大學研究團隊合作開展大規模預訓練模型,併發布清源 CPM (Chinese Pretrained Models) 研究計劃,旨在推動中文自然語言處理的研究與應用。清源 CPM 計劃將依託智源研究院新建的人工智能算力平臺,建立以中文爲核心的超大規模預訓練模型,進行基於超大規模預訓練語言模型的少次學習能力以及多任務遷移能力研究,探索更具通用能力的語言深度理解技術。2020 年 11 月中旬,CPM 開放第一階段的 26 億參數規模的中文語言模型 (CPM-LM) 和 217 億參數規模的結構化知識表示模型 (CPM-KM) 下載,以及相應的系統演示。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"關於預訓練模型的大量實驗表明,更大的模型參數和更多的預訓練數據,通常能夠帶來更好的下游任務效果,這類模型被證明在各種少樣本學習 NLP 任務中十分有效。傳統預訓練模型往往需要經過有監督訓練數據微調 (Fine-tuning),才能解決各種自然語言處理任務。而第一版 CPM 中文語言模型與 GPT-3 等預訓練模型類似,僅需要通過少次、單次學習甚至零次學習,就能完成不同自然語言處理任務,具備一定的常識和認知的泛化能力。CPM 模型從大規模的中文語料庫中學習了通用的語言模式,有望顯著提升中文自然語言處理各任務的性能。初步的實驗表明,CPM 模型能夠用於問題解答、摘要和對話以及生成各種文本包括隨筆、小說、代碼、電子表格等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"按照清源 CPM 的規劃,2021 年 7 月份到 9 月份,整個模型將包含約 1000 億參數,訓練數據包括 1TB 以中文爲核心的多語言數據和億級實體關係圖譜。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如今,阿里巴巴正式發佈 PLUG,再一次推進了中文社區預訓練模型的發展。接下來,PLUG 將擴大參數規模至 2000 億級,並進一步提升文本生成質量。除以中文爲核心的 PLUG(270 億參數)外,達摩院還聯合智源研究院、清華大學發佈了面向認知的超大規模新型預訓練模型“文匯”(113 億參數),以及聯合清華大學發佈了超大規模多模態預訓練模型“M6”(千億參數)。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"與 PLUG 發佈同步,達摩院宣佈近期將開源阿里巴巴語言模型體系大部分重要模型。阿里達摩院語言技術實驗室負責人司羅表示,“達摩院 NLP 團隊將進一步攻克自然語言處理領域科研難題,完善中文及跨語言人工智能基礎設施,讓 AI 沒有難懂的語言,並探索通用人工智能之路。”"}]}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章