AI前線（2020年12月）

原創

InfoQ 中文站

2020-12-31 17:28

卷首語

解讀自然語言處理的2020年：“大力出奇跡”的GPT-3證明了大算力、大模型的價值

作者 | 趙鈺瑩

嘉賓 | 於政

2019 年，自然處理領域最受關注的模型便是 BERT。這一年，各大公司和高校陸續發佈了自己的預訓練語言模型，如：Facebook 發佈的 RoBERTa，CMU 發佈的 XLNet，Stanford 發佈的 ELECTRA，還有百度的 ERNIE 模型等，不斷刷新自然語言理解任務的最高表現。2020 年，我們又迎來了 GPT-3 的發佈，該模型自出現便引起了開發者圈內的激烈討論，到底該模型的出現會對整個領域帶來哪些值得注意的變化？展望未來，哪些技術是開發者應該關注的？各大公司的動向又是如何？InfoQ 採訪了明略科技資深科學家於政，對自然語言處理領域過去一年的重大事件進行總結、回顧與探討。

2018 年，BERT 誕生，其在 11 項 NLP 任務上達到最高水平，被認爲開啓了自然語言處理的新篇章。BERT 一個革命性的工作是將 Transformer 的架構引入了預訓練語言模型，並開啓了 Pretraining-Finetuning 的框架，這讓 2019 年湧現了一大批有效、實用並且帶給人啓發的預訓練語言模型方面的成果。根據介紹，該框架在預訓練階段基於大規模無監督語料進行兩個預訓練任務，分別是詞級別和句子級別的，一個是 MLM（Masked Language Modeling），另外一個是 NSP（Next Sentence Prediction），MLM 是從一個部分被 Mask 的句子恢復這些被 Mask 掉的確實詞，NSP 是判斷一個句對是不是上下句，從而獲取基於上下文的詞和句子的表示。在 Finetune 階段，針對具體的下游任務，BERT 會微調中間層參數以調整詞的 Embedding 以及調整預測層的參數，成功的將預訓練學到的詞和句子的表示遷移到下游任務中，實現了對低資源任務的有效支撐。

在於政看來，自 BERT 問世，大部分自然語言處理模型基本遵循了類似結構，以 Transformer 或者 attention 的模型機制進行相關變化。從 GPT-1 到 GPT-2，再到 GPT-3 又讓大家逐步認識到增大數據量、模型，以計算流的方式將計算髮揮到極致，可以解決很多問題。當前，學術界、工業界的趨勢之一是如何用更大的數據訓練更復雜的算法系統去解決相關問題。但是，面對領域、細分行業的特殊任務，大的模型並不適用，要基於 pre-training 模型做領域的 fine-tuning。具體而言：

基於BERT的模型壓縮，讓小模型在訓練過程從大模型的嵌入層、注意力矩陣以及輸出層學習知識，通過減少transformer層數獲得更快的推理速度，同時模型的精度損失有限。
基於知識圖譜的BERT模型，BERT在大規模的通用語料上做預訓練，但是在特定領域下效果不好，通過將特定領域知識圖譜的信息融入BERT，獲得特定領域的BERT模型。

在 2020 年，GPT-3 的論文一經發表就引發了業內轟動，因爲這一版本模型有着巨大的 1750 億參數量。事實上，GPT-2 憑藉將近 30 億條參數的規模已經在 2019 年拿下了“最強 NLP 模型”的稱號，而 GPT-3 更甚：放大了 100 倍（96 層和 1,750 億個參數），並且接受了更多數據的訓練（CommonCrawl，一個包含大量 Internet 的數據庫，以及一個龐大的圖書庫和所有 Wikipedia），支持的任務廣泛且旨在測試快速適應不太可能直接包含在訓練集中的任務的幾個新任務。

於政表示，GPT-3 是一種自迴歸模型，基於單向 transformer，採用只有解碼器的體系結構，使用下一個單詞預測目標進行訓練。GPT-3 屬於少樣本學習語言模型，只需要少量標註數據，不管是 Zero-shot、One-shot 還是 Few-shot 都無需再進行微調。GPT-3 聚焦於更通用的 NLP 模型，主要目標是用更少的領域數據、且不經過精調步驟去解決問題。簡單來說，GPT-3 是 GPT-2 的進化版，驚人的模型參數、訓練數據和工作量以及結果證明了“大力出奇跡”的道理，擴展了 NLP 領域的想象力。雖然，GPT-3 沒有在研究方面推動全球發展，但證明了現有技術的可擴展性，也積累了大模型訓練經驗。

未來展望

目前，自然語言處理領域較爲成熟的方向是傳統任務，比如文本分類、情感分析和機器翻譯。在商業銷售領域，還存在一些對認知能力要求高，技術挑戰大的場景，比如話術分析，自然語言生成、理解、問答等，這些場景將產生巨大的商業價值，這也是明略科技重點投入的研發領域。

此外，於政表示，多模態自然語言處理肯定是未來的重要方向之一。人工智能領域發展到現在，已經有很多無法通過單一數據解決的問題出現。工業界比較熱的數據中臺、知識圖譜解決的核心問題之一就是打通多源異構數據，將數據和知識鏈接起來，進而發揮數據價值，從這個維度看，多模態自然語言處理技術將發揮重要作用。例如：在對話系統場景下，多模態模型能夠融合並理解用戶輸入的圖片、文本和語音等信息，並以多模態的形式進行回覆，多模態技術能給用戶帶來豐富的交互體驗。在語音交互場景下，通過聲學信號和文字信號，能夠準確地識別用戶交流中的情緒變化等。

未來幾年，上述挑戰將是自然語言處理領域重點發展和探索的方向，只要其中的相關技術得到解決，對學術界、工業界的貢獻將是巨大的。

AI前線（2020年12月）

卷首語

解讀自然語言處理的2020年：“大力出奇跡”的GPT-3證明了大算力、大模型的價值

未來展望

目錄

生態評論

重磅訪談

落地實踐

推薦閱讀

爲什麼要⽤ Foundry

【筆記】動手學深度學習-預備知識

py發送email

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

公司來了個新同事，把 DDD 運用得爐火純青！

2021雲智技術論壇-知識智能化專場

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

中國卓越技術團隊訪談錄（2021年第六季）

共話“勒索軟件”應對之道——能源篇

共話“勒索軟件”應對之道——電子政務篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結