WeLM微信自研NLP大規模語言模型

原創

2023-03-04 13:07

2022年9月份微信AI推出自研NLP大規模語言模型WeLM ，該模型是一個尺寸合理的中文模型，能夠在零樣本以及少樣本的情境下完成包多語言任務在內的多種NLP任務。openai的chatgpt是在2022年10月底發佈的。在國內以中文爲核心的大規模語言模型領域，微信AI推出的百億級別大規模語言模型WeLM，是大模型百家爭鳴中的新選手。

什麼是WeLM

WeLM 是一個非常擅長理解和生成文本的通用語言模型，是微信AI團隊推出的自研NLP大規模語言模型。微信AI團隊提供了WeLM的體驗網頁和API接口，感興趣可前往 https://welm.weixin.qq.com/docs/ 體驗和申請API接口，相關技術論文已發佈於論文預印本網站arXiv，點擊查看《WeLM: A Well-Read Pre-trained Language Model for Chinese》。

WeLM有什麼用途

WeLM 是一個非常擅長理解和生成文本的通用語言模型。你可以通過調用 WeLM 的 API 解決多種多樣涉及文本的任務。例如給貓咪取名字、一個簡單的問答。你也可以將 WeLM API 用於其他任務（包括且不限於對話、文本風格轉換、閱讀理解、翻譯等）

據介紹，WeLM是一個百億級別的中文模型，能夠在零樣本以及少樣本的情境下完成包括對話-採訪、閱讀理解、翻譯、改寫、續寫、多語言閱讀理解在內的多種NLP任務，並具備記憶能力、自我糾正和檢查能力。並且，WeLM具有尺寸合理的優勢，在14項中文NLP任務上，WeLM的整體表現超出了所有同大小的模型，甚至能夠匹配比它大25倍的模型。

WeLM任務示例

WeLM改寫示例

以被普遍認爲是更困難的NLP任務的文本風格轉換（改寫）爲例，儘管用戶給出的5個例子和最後需要生成的例子並沒有重合的風格轉換類型，但WeLM擁有出色的舉一反三能力，通過學習少量的文本轉換例子即可達到對任意類型的文本轉換。並且，WeLM在對話-採訪、閱讀理解、翻譯、續寫等多箇中文文本生成任務中有着同樣優異的表現。

WeLM翻譯示例

除了具備強大的中文理解和生成能力，WeLM還擁有處理跨多語言（中英日）任務的能力。以“微信 AI 推出の WeLM 是一個 language model that いろいろなtaskをperformができる”這句混合中日英三國語言的文本爲例，WeLM的翻譯相對更加精準。

而且，在進一步微調後，WeLM可以擁有更好的零樣本學習能力，可以根據場景擁有更好的表現。目前，WeLM已經部署應用於微信視頻號的部分場景中，未來在進一步優化後還將應用於更多微信應用場景。

同時，爲進一步推動WeLM成爲真正能落地且實用的工具，微信AI團隊還發布了一個供用戶體驗的交互式網頁PlayGround，並開放了用於訪問WeLM的API接口。

WeLM體驗地址

https://welm.weixin.qq.com/docs/playground/

WeLM API申請地址

https://docs.qq.com/form/page/DUW1YVVJNbHpzV2No#/fill

WeLM API文檔

https://welm.weixin.qq.com/docs/api/

目前，用戶可通過https://welm.weixin.qq.com/docs/體驗WeLM的相關能力，並通過調整配置以實現更貼近的文本生成效果。對於想接入WeLM的開發者，也可通過https://welm.weixin.qq.com/docs/api/填寫問卷後獲得WeLM的API Token並調用相應接口，將WeLM部署在自己的應用上。

具有極強知識儲備，已在14項中文NLP任務展示能力

據介紹，在純Encoder(Bert)、純Decoder(GPT) 以及Encoder-Decode(T5) 結構等主流NLP模型路徑的選擇上，WeLM和GPT3、Google PaLM一樣，選擇了自迴歸模型的路線。同時，考慮到不同的用戶對於模型效果和推理延遲會有考量或者取捨（trade-off），微信AI的WeLM訓練了1.3B、2.7B以及10B三個版本的模型，滿足不同用戶的調用需求。

同時，在訓練數據上，微信AI團隊希望構建一個足夠豐富、足夠乾淨、足夠公平的數據集，爲此研究團隊從Common Crawl下載了近兩年的中文網頁數據，和大量的書籍、新聞。爲了增強專業能力，微信AI團隊還在數據集補充了知識密集的論壇數據和一些學術論文，蒐集完成後的全量數據10TB，其中包含了750G的英文數據，並保留了部分日韓文。

隨後，通過規則過濾和額外訓練的二分類fasttext模型，以及對測評相關數據的去除，數據集最終處理完的數據量爲262B tokens。爲了更好的平衡各個數據源的比重，微信AI團隊也對數據進行不同比重的採樣，最終，整體數據集的Topic分佈相比 Common Crawl更加平滑。

在與業界同級別大模型的對比測試中，WeLM表現出極強的知識儲備，在14項中文NLP任務上，WeLM 的整體表現超出了所有同大小的模型，甚至能夠匹配比它大25倍的模型。同時，WeLM還有出色的多語言理解能力，用戶的輸入可以在中日英上絲滑切換。

ChatGPT API

參考資料

https://welm.weixin.qq.com/docs/

https://new.qq.com/rain/a/20221013A02P8400

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

WeLM微信自研NLP大規模語言模型

什麼是WeLM

WeLM有什麼用途

WeLM任務示例

WeLM改寫示例

WeLM翻譯示例

WeLM體驗地址

WeLM API申請地址

WeLM API文檔

ollama使用

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

TiDB Vector 太香啦：以圖搜圖初體驗！

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

如何屏蔽各大AI公司爬蟲User Agent

爲什麼網站速度優化很重要

如何在LinkedIn上開發客戶

怎樣在Facebook上開發客戶

如何屏蔽GPTBot抓取網站內容

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結