WeLM微信自研NLP大規模語言模型

2022年9月份微信AI推出自研NLP大規模語言模型WeLM ,該模型是一個尺寸合理的中文模型,能夠在零樣本以及少樣本的情境下完成包多語言任務在內的多種NLP任務。openai的chatgpt是在2022年10月底發佈的。在國內以中文爲核心的大規模語言模型領域,微信AI推出的百億級別大規模語言模型WeLM,是大模型百家爭鳴中的新選手。 大规模语言模型WeLM简介

 

什麼是WeLM

WeLM 是一個非常擅長理解和生成文本的通用語言模型,是微信AI團隊推出的自研NLP大規模語言模型。微信AI團隊提供了WeLM的體驗網頁和API接口,感興趣可前往 https://welm.weixin.qq.com/docs/ 體驗和申請API接口,相關技術論文已發佈於論文預印本網站arXiv,點擊查看 《WeLM: A Well-Read Pre-trained Language Model for Chinese》。 

大规模语言模型WeLM论文发布

WeLM有什麼用途

WeLM 是一個非常擅長理解和生成文本的通用語言模型。你可以通過調用 WeLM 的 API 解決多種多樣涉及文本的任務。例如給貓咪取名字、一個簡單的問答。你也可以將 WeLM API 用於其他任務(包括且不限於對話、文本風格轉換、閱讀理解、翻譯等)

據介紹,WeLM是一個百億級別的中文模型,能夠在零樣本以及少樣本的情境下完成包括對話-採訪、閱讀理解、翻譯、改寫、續寫、多語言閱讀理解在內的多種NLP任務,並具備記憶能力、自我糾正和檢查能力。並且,WeLM具有尺寸合理的優勢,在14項中文NLP任務上,WeLM的整體表現超出了所有同大小的模型,甚至能夠匹配比它大25倍的模型。

WeLM任務示例

WeLM改寫示例

以被普遍認爲是更困難的NLP任務的文本風格轉換(改寫)爲例,儘管用戶給出的5個例子和最後需要生成的例子並沒有重合的風格轉換類型,但WeLM擁有出色的舉一反三能力,通過學習少量的文本轉換例子即可達到對任意類型的文本轉換。並且,WeLM在對話-採訪、閱讀理解、翻譯、續寫等多箇中文文本生成任務中有着同樣優異的表現。

WeLM改寫示例

 

 

WeLM翻譯示例

除了具備強大的中文理解和生成能力,WeLM還擁有處理跨多語言(中英日)任務的能力。以“微信 AI 推出の WeLM 是一個 language model that いろいろなtaskをperformができる”這句混合中日英三國語言的文本爲例,WeLM的翻譯相對更加精準。 WeLM翻译示例

 

而且,在進一步微調後,WeLM可以擁有更好的零樣本學習能力,可以根據場景擁有更好的表現。目前,WeLM已經部署應用於微信視頻號的部分場景中,未來在進一步優化後還將應用於更多微信應用場景。

同時,爲進一步推動WeLM成爲真正能落地且實用的工具,微信AI團隊還發布了一個供用戶體驗的交互式網頁PlayGround,並開放了用於訪問WeLM的API接口。

WeLM體驗地址

https://welm.weixin.qq.com/docs/playground/

WeLM API申請地址

https://docs.qq.com/form/page/DUW1YVVJNbHpzV2No#/fill

WeLM API文檔

https://welm.weixin.qq.com/docs/api/

 

目前,用戶可通過https://welm.weixin.qq.com/docs/體驗WeLM的相關能力,並通過調整配置以實現更貼近的文本生成效果。對於想接入WeLM的開發者,也可通過https://welm.weixin.qq.com/docs/api/填寫問卷後獲得WeLM的API Token並調用相應接口,將WeLM部署在自己的應用上。

具有極強知識儲備,已在14項中文NLP任務展示能力

據介紹,在純Encoder(Bert)、純Decoder(GPT) 以及Encoder-Decode(T5) 結構等主流NLP模型路徑的選擇上,WeLM和GPT3、Google PaLM一樣,選擇了自迴歸模型的路線。同時,考慮到不同的用戶對於模型效果和推理延遲會有考量或者取捨(trade-off),微信AI的WeLM訓練了1.3B、2.7B以及10B三個版本的模型,滿足不同用戶的調用需求。

同時,在訓練數據上,微信AI團隊希望構建一個足夠豐富、足夠乾淨、足夠公平的數據集,爲此研究團隊從Common Crawl下載了近兩年的中文網頁數據,和大量的書籍、新聞。爲了增強專業能力,微信AI團隊還在數據集補充了知識密集的論壇數據和一些學術論文,蒐集完成後的全量數據10TB,其中包含了750G的英文數據,並保留了部分日韓文。

隨後,通過規則過濾和額外訓練的二分類fasttext模型,以及對測評相關數據的去除,數據集最終處理完的數據量爲262B tokens。爲了更好的平衡各個數據源的比重,微信AI團隊也對數據進行不同比重的採樣,最終,整體數據集的Topic分佈相比 Common Crawl更加平滑。

 WeLM數據集處理

 

在與業界同級別大模型的對比測試中,WeLM表現出極強的知識儲備,在14項中文NLP任務上,WeLM 的整體表現超出了所有同大小的模型,甚至能夠匹配比它大25倍的模型。同時,WeLM還有出色的多語言理解能力,用戶的輸入可以在中日英上絲滑切換。

大模型對比測試

相關文章

ChatGPT API

參考資料

https://welm.weixin.qq.com/docs/

https://new.qq.com/rain/a/20221013A02P8400

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章