百度發佈PLATO-XL，全球首個百億參數中英文對話預訓練生成模型

原創

2021-09-23 21:32

【導讀】和AI進行無障礙的對話，是什麼樣的體驗？你或許能夠在這篇文章裏找到答案！百度全新發布PLATO-XL，參數達到了110億，超過之前最大的對話模型 Blender，是當前最大規模的中英文對話生成模型，並再次刷新了開放域對話效果。

很難相信，以上是AI與人交流的真實對話記錄。近日，百度發佈新一代對話生成模型 PLATO-XL，一舉超過Facebook Blender、谷歌Meena和微軟DialoGPT，成爲全球首個百億參數中英文對話預訓練模型，再次刷新了開放域對話效果，打開了對話模型的想象空間。

儘管大規模參數的模型在自然語言處理領域如雨後春筍出現，並且在多個自然語言理解和生成任務上取得了很多成果，但多輪開放域對話的主動性和常識性問題一直無法很好解決。百度NLP於2019年10月預發佈了通用領域的對話生成預訓練模型PLATO，在ACL 2020正式展示。2020年升級爲超大規模模型PLATO-2，參數規模擴大到16億，涵蓋中英文版本，可就開放域話題深度暢聊。如今，百度全新發布PLATO-XL，參數規模首次突破百億達到110億，是當前最大規模的中英文對話生成模型。

論文名稱:

PLATO-XL：Exploring the Large-scale Pre-training of Dialogue Generation

論文地址：

https://arxiv.org/abs/2109.09519

PLATO-XL，全球首個百億參數對話預訓練生成模型

讓機器進行像人一樣有邏輯、有知識、有情感的對話，一直是人機智能交互的重要技術挑戰；另一方面，開放域對話能力是實現機器人情感陪伴、智能陪護、智能助理的核心，被寄予了很高的期望。

預訓練技術大幅提升了模型對大規模無標註數據的學習能力，如何更高效、充分的利用大規模數據提升開放域對話能力，成爲主流的研究方向。

從谷歌Meena、Facebook Blender到百度PLATO，開放域對話效果不斷提升。在全球對話技術頂級比賽DSTC-9上，百度PLATO-2創造了一個基礎模型取得5項不同對話任務第一的歷史性成績。

如今，百度發佈PLATO-XL，參數達到了110億，超過之前最大的對話模型Blender（最高94億參數），是當前最大規模的中英文對話生成模型，並再次刷新了開放域對話效果。

百度PLATO一直有其獨特的從數據到模型結構到訓練方式上的創新。PLATO-1， PLATO-2不僅刷新了開放域對話效果，也具有非常好的參數性價比，即在同等參數規模下效果超越其他模型。PLATO-XL在參數規模達到新高的同時，其對話效果也不出意外地再次達到新高。下面，我們將展開介紹PLATO-XL模型的核心技術特點。

PLATO-XL模型：更高參數性價比，大幅提升訓練效果

PLATO-XL網絡架構上承襲了PLATO unified transformer結構，可同時進行對話理解和回覆生成的聯合建模，參數性價比很高。通過靈活的注意力機制，模型對上文進行了雙向編碼，充分利用和理解上文信息；對回覆進行了單向解碼，適應回覆生成的auto-regressive特性。此外，unified transformer結構在對話上訓練效率很高，這是由於對話樣本長短不一，訓練過程中padding補齊會帶來大量的無效計算，unified transformer可以對輸入樣本進行有效的排序，大幅提升訓練效率。

爲了進一步改善對話模型有時候自相矛盾的問題，PLATO-XL引入了多角色感知的輸入表示，以提升多輪對話上的一致性。對話模型所用的預訓練語料大多是社交媒體對話，通常有多個用戶參與，表述和交流一些觀點和內容。在訓練時，模型較難區分對話上文中不同角度的觀點和信息，容易產生一些自相矛盾的回覆。針對社交媒體對話多方參與的特點，PLATO-XL進行了多角色感知的預訓練，對多輪對話中的各個角色進行清晰區分，輔助模型生成更加連貫、一致的回覆。

PLATO-XL包括中英文2個對話模型，預訓練語料規模達到千億級token，模型規模高達110億參數。PLATO-XL也是完全基於百度自主研發的飛槳深度學習平臺，利用了飛槳FleetX庫的並行能力，使用了包括 recompute、sharded data parallelism等策略，基於高性能GPU集羣進行了訓練。

PLATO-XL效果：多種類型、多種任務，對話效果全面領先

爲了全面評估模型能力，PLATO-XL與當前開源的中英文對話模型進行了對比，評估中採用了兩個模型針對開放域進行相互對話（self-chat）的形式，然後再通過人工來評估效果。PLATO-XL與Facebook Blender、微軟DialoGPT、清華EVA模型相比，取得了更優異的效果，也進一步超越了之前PLATO-2取得的最好成績。此外，PLATO-XL也顯著超越了目前主流的商用聊天機器人。

除了開放域閒聊對話，模型也可以很好的支持知識型對話和任務型對話，在多種對話任務上效果全面領先。

PLATO系列涵蓋了不同規模的對話模型，參數規模從9300萬到110億。下圖可以看出，模型規模擴大對於效果提升也有顯著作用，呈現較穩定的正相關關係。

PLATO-XL不管是在英文，還是中文上的多輪對話，模型都可以與用戶進行有邏輯、有內容且有趣的深入聊天。

百度PLATO-XL模型英文對話效果

百度PLATO-XL模型中文對話效果

結語

讓機器用自然語言與人自由地交流，是人工智能的終極目標之一。百度PLATO-XL的發佈，是開放域對話在大模型上的一次深入探索。相信在不久的將來，更加強大的對話預訓練模型將會陸續發佈。未來，對話模型可以更加擬人、更有知識。

百度開放接口服務供大家體驗最新中文PLATO百億模型的效果，對智能對話感興趣的小夥伴一定不能錯過。

點擊進入瞭解更多技術資訊~~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

百度發佈PLATO-XL，全球首個百億參數中英文對話預訓練生成模型

MySQL查出時間比實際晚8小時的解決方案

什麼是IPD項目管理模式？聊聊IPD下的產品研發流程

aaaaaa1

Java編程工具：簡潔高效實現

Java word通過html設置樣式（Spire Docx）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結