對話京東科技算法科學家吳友政:回望2020,NLP技術發展速度強勁

作爲人工智能領域中熱度最高、挑戰最大的子領域之一,自然語言處理(NLP)在最近幾年得到了飛速的發展。2020 年我們又迎來了 GPT-3,1750 億參數讓其自誕生就引起了開發者們的激烈討論。短短一年時間,知識圖譜的成熟度由萌芽期一躍達到預期膨脹高峯且非常接近最高點…

近日,京東科技算法科學家、高級技術總監吳友政博士受邀做客InfoQ《大咖說》直播間,與我們分享了NLP領域的2020年大事記,以及未來一年最值得期待的變化。

京東科技算法科學家、高級技術總監——吳友政

1.InfoQ:吳老師,您好,非常高興有機會和您對話。先請您簡單總結下NLP領域在2020年的進展。

吳友政: NLP技術2020年仍然在快速發展的車道上。內容生成方向,以GPT-3爲代表的預訓練技術不僅在NLP、甚至在整個AI領域都受到了廣泛關注。GPT-3生成的文章連人類也難辨真假。生成式AI也首次進入Gartner技術成熟度曲線,跟蹤其成熟度和未來潛力。人機對話方向,谷歌去年初發布了Meena、Facebook後續發佈了Blenderbot、以及Blenderbot和Pandora Kuki兩個聊天機器人的“約會”遭全網圍觀,都極大地推動了人機對話技術的發展。此外,多模態智能、數字內容生成、圖神經網絡等技術都有非常大的進展。影響力上,NLP領域中的Transformer、預訓練等技術在計算機視覺、語音等AI領域都得到了廣泛的應用。落地應用上,人機對話相比於2019年有了非常顯著的進步。在2020年的Gartner報告中,人機對話的位置相比2019更加靠前。該報告同時預測人機對話技術將在2~5年後進入平臺期或者說成熟期。

綜上,我認爲過去一年NLP技術仍然行駛在快車道上。

圖1:人機對話技術發展回顧

2.InfoQ:如果回顧自然語言處理過去幾年的發展特點,您認爲可以從哪幾個緯度展開?

吳友政: 我覺得可以從學科發展、技術趨勢、人才情況、落地應用等多個維度展開。我先簡單回顧一下NLP的發展歷程。2000年之前,NLP是一個小衆的學科方向,而且NLP領域的很多算法也是從其他領域借鑑過來的,比如分詞、詞性標註用的馬爾可夫模型借鑑自語音領域。2000年之後,Google等搜索公司的成功帶動了NLP學科的發展。NLP在Query理解、Doc理解、Query-Doc相關度計算等可以顯著提高搜索的相關性,進而改善搜索質量。由於NLP涉及面廣的特點,除搜索之外,推薦、廣告、輿情、社交等等對NLP技術都有大量的需求。2010年左右,隨着語音、計算機視覺等感知技術相對成熟,以NLP爲代表的認知智能受到了AI學者的廣泛關注。比爾蓋茨曾說過:自然語言處理是人工智能皇冠上的明珠。2013年左右,我認爲NLP技術開始進入快速發展的通道,標誌性事件是谷歌提出的詞嵌入技術。詞嵌入是一種詞的表示方法,是將詞彙映射到實數向量的方法,讓我們可方便地計算2個詞的相似度,進而可實現句子嵌入/表示等。在這之後一系列新的有影響力的技術陸續提出:2015年的Attention, 2017年的Transformer, 2018年的ELMo、GPT-1、BERT, 2019年的GPT-2, 2020年的GPT-3(1750億參數), T5, 2021年的Switch Transformer(1.6萬億參數)。落地應用上,以NLP爲核心引擎的智能音箱、智能服務機器人、機器翻譯已經走進了我們的日常生活。

具體到2020年,我們統計了2020年NLP頂會論文,總結了一些觀察。

從NLP任務看

(1)多模態人機對話是最HOT的研究方向:研究課題涉及任務型對話、開放域聊天、對話式推薦、對話式機器閱讀理解等。我們去年在斯坦福大學的對話式機器閱讀理解數據集QuAC上獲得了冠軍。

(2)文本生成熱度不減:文本生成與自動文摘、機器翻譯、人機對話等任務關係緊密。基於Seq2Seq框架、預訓練語言模型、融合多模態和知識的可控文本生成一直是自然語言處理的熱門研究領域。

(3)機器翻譯:雖然仍位居研究熱點頭部位置,但相對人機對話來說關注度有所下降。

(4)其他的如自動文摘、Syntactic Parsing、關係抽取、命名體識別等傳統自然語言處理任務逐漸式微。

從NLP模型看

(1)以BERT/GPT爲代表的自編碼/自迴歸/對比學習的預訓練模型在自然語言理解、自然語言生成任務上不斷刷榜,預訓練-精調形成NLP新範式。

(2)融合知識成爲提升模型能力的萬金油。全國知識圖譜大會CCKS的參會人數逐年創記錄也反應了KG的熱度。

(3)圖神經網絡強勢崛起:圖神經網絡在文本分類、關係抽取、多跳閱讀、數值計算等多個自然語言處理任務上的得到了廣泛的應用。

(4)多模態:多模態信息處理已滲透到多個領域,如內容生成、人機對話等。

3.InfoQ:2018年誕生的BERT在2019年引發了一波落地浪潮,成爲NLP領域去年最受關注的技術,您方便介紹下,BERT或者說預訓練模型在2020年有哪些值得注意的變化嗎?京東在這方面有哪些實踐和經驗可以分享?

吳友政: 預訓練技術確實是受到關注最多的技術之一,我今年也看到很多研究者對預訓練技術都做了非常好的總結。那我簡單總結一下預訓練技術的發展趨勢,不侷限於2020年發生的。

趨勢一: 從上下文無關的詞嵌入(word embedding)走向上下文有關的預訓練,比如2018年的ELMo。

趨勢二: 預訓練模型和下游Fine-tuning模型走向統一。ELMo預訓練模型和下游諸如文本分類、序列標註等的精調模型是不一致的。我們一般僅提取ELMo隱藏層信息,放到下游的CNN/LSTM等模型中。而GPT和BERT的出現則把預訓練模型和下游模型統一了,這是預訓練技術發展的一個重要變化。

趨勢三: 預訓練模型從或用於理解或用於生成任務走向同時適用於理解和生成任務的統一。自編碼的BERT最早提出是做文本理解,自迴歸的GPT則是做生成。2020年,預訓練模型將理解和生成統一到Encoder - Decoder框架,谷歌今年提出的T5就是典型的代表。

趨勢四: 基於文本-圖像對、文本-視頻對的多模態預訓練。比如只在Encode框架上面做理解的VL-BERT,基於Encoder-Decoder框架的Unicoder-VL。

趨勢五: 知識增強的預訓練。代表模型有知識嵌入的語言模型ERINE、模塊化且解釋性更強的知識嵌入方法REALM、將知識圖譜的信息引入到BERT中的K-BERT、可插拔式的知識融入模型K-Adapter,用於解決連續學習在 pre-training 的時候遺忘之前學到的知識的問題。

趨勢六: 預訓練模型越來越大。2020年發佈的GPT-3有1750億個參數,今年1月份發佈的Switch  Transformer有1.6萬億的參數。北京智源人工智能研究院和清華大學2020年發佈的中文預訓練有217億參數。2021年可能會有更大的預訓練模型發佈。

趨勢七: 更小巧的預訓練模型。預訓練模型在應用到實際的產品或者商業化系統需要滿足線上推理、延時的要求。以TinyBERT、ALBERT爲代表的模型是更小、更高效模型的代表。

以上是我觀察到的預訓練技術的幾個趨勢。具體到實踐層面,以京東爲例,預訓練技術在產品上有非常多的應用。

一是領域遷移。其實數據也不是越多越好,而是需要更多高質量的數據,而且需要和應用場景相匹配。比如京東要做零售領域的很多NLP任務,我們肯定是要在通用的預訓練模型的基礎上,再結合零售數據做領域適配。

二是上文提到的知識增強的預訓練。京東在這上面做了很多工作,提出了很多知識增強的預訓練目標,將知識融入到預訓練模型裏面,採用Encode-Decode架構,可以完成商品要素的編輯檢測、商品類目分類、商品要素的摘要生成等,都是希望將領域知識或者特品任務的知識,融入到預訓練裏面,從而提高目標任務的效果。

三是解決延時和成本問題。GPU資源相對比較寶貴,很多企業都沒辦法提供大規模的GPU機器供推理服務使用。知識蒸餾技術因此得到廣泛應用。其主要包含兩種方式:一是將大模型變成小模型,比如12層的Transformer變成六層或者三層。二是不同模型之間的蒸餾,比如Transformer裏面的知識蒸餾到TextCNN,其可以做到毫秒級響應。

4.InfoQ:我們剛剛提到預訓練模型的參數越來越大,您認爲這在2021年會繼續延續下去嗎?

吳友政: 我覺得這肯定是其中一個方向,未來會有研究機構或者企業推出更大的模型。大力確實出奇跡。就像我們的一句老話:熟讀唐詩三百首,不會吟詩也會吟。模型到底會變成多大是2021年非常值得關注的一個點。

5.InfoQ:2020年,GPT-3的發佈引發了業內的廣泛關注,開發者對其褒貶不一,您對GPT-3有哪些評價?目前,GPT-3已經被應用來做大量內容自動生成方面的事情,您方便介紹下目前自動生成內容的效果和難度分別如何?具體可應用在哪些場景?

吳友政: 正如大家從媒體上了解的一樣,GPT-3 通過少量的提示就可以生成一篇完整的文章。但是GPT-3生成的內容在常識、語言邏輯、前後照應等方面還有很多問題。但GPT-3在技術上的進步是毋庸置疑的:一、GTP3驗證了大規模自監督預訓練模型可以達到很好的效果,就像GTP-3文章中提出的一樣:人們很難區分文章到底是由機器生成的還是人類完成的,人類判斷的準確率只有12%。二、GTP-3強調自己是少樣本或者零樣本,這對實際應用是非常重要的。因爲做產品的過程中遇到的最棘手的問題就是樣本不足,研究快速達到好的冷啓動效果是非常重要的課題。在這方面,GTP-3是非常有應用價值的。

在內容生成的實踐層面,京東也做了很多非常有意思的探索:基於圖像生成技術的虛擬試衣、AI音樂生成、商品營銷文案生成、AI寫詩、風格化AI書法字體生成、文本與圖像的相互生成等等。其中,AI商品營銷文案生成的挑戰是不僅要求機器生成語句通順,符合語法規則和語義邏輯的文章,還需要是用戶願意閱讀的商品文案,從而提高用戶的點擊轉化。我們在AI商品文案生成上取得的效果還是非常不錯的,人工審覈的通過率在90%以上,AI生成的素材平均點擊率顯著高於達人平均。目前已經覆蓋了京東的3000+個三級品類,在京東發現好貨頻道、社交電商京粉、搭配購、AI直播帶貨等多個場景都有廣泛的應用。具體技術細節可參考:

"多模態數字內容生成"的技術探索與應用實踐

6.InfoQ:我們在前面的對話中也多次提到多模態,我們也看到業界有一些對多模態方面的討論,您可以介紹一下多模態在2020年的進展嗎?

吳友政: 多模態在2020年的確受到學術界和產業界的關注。2020年有很多場關於多模態信息處理的研討會。我們去年10月份在CCF-NLPCC會議期間舉辦了線下的多模態自然語言處理研討會,邀請了來自CV、NLP以及藝術領域的專家,介紹他們在多模態摘要、多模態對話、多模態與藝術的結合等方向上的最近研究進展

https://36kr.com/p/950784094284677)。去年我們也舉辦了第三屆京東多模態人機對話挑戰賽(https://jddc.jd.com當AI客服遇上「圖文混排」提問,京東給電商AI來了場摸底考試),併發布了首個真實場景的多模態對話數據集JDDC Corpus2.0。大賽吸引了來自高校、研究所、企業的700多名選手和400多支隊伍參加。我們希望通過大賽和開放數據集共同推動多模態多輪人機對話技術的進展。

在多模態應用上面,京東將多模態人機對話應用到了導購機器人。線上客服導購對話中有超過16%含有多模態信息,就是含有圖片信息,所以導購客服需要有多模態語義理解的能力,然後更好的服務客戶,因爲如果有16%的會話都回答不了,是很遺憾的。

6.InfoQ:在NLP領域,知識圖譜也是發展比較好的一個分支,您方便從技術和應用落地兩方面簡單總結知識圖譜2020年的發展情況以及未來趨勢嗎?

吳友政: 融合知識在大多數情況下都能顯著提高模型效果。基於知識圖譜改進預訓練模型,無論是通過知識指導Mask,或是將知識編碼進預訓練模型,都是近期的研究熱點。二、用知識圖譜解決低資源的問題,比如解決推薦的冷啓動問題就非常依賴知識圖譜。三、知識圖譜在文本生成方面有廣泛的應用,我們提出利用知識圖譜提高文本生成的忠實度,利用知識圖譜指導解碼器進行受限解碼,從而提高文本輸出的冗餘性,提高可讀性等。

在實踐層面,我們正在建設2個知識圖譜:第一個是以商品爲中心的商品知識圖譜,包括商品、用戶、場景等實體的知識圖譜。第二個是藥學知識圖譜、是以藥品爲中心的構建藥品與藥品、藥品與疾病、藥品與人羣等關係。知識圖譜在京東有豐富的落地場景,我這裏舉幾個例子:

(1)第一個應用場景是商品圖譜問答:在售前場景,用戶諮詢中有2%左右的問題(不同品類比例不同)涉及商品屬性(這款洗衣機是否有殺菌清潔功能)。我們的解決方法是KBQA技術。

(2)第二個場景是使用知識圖譜提高商品文案寫作的忠實度。一個合格的商品營銷文案的基本要求是生成的文案不能出現事實性錯誤,比如對於一款“變頻冰箱”,模型生成的文案不能描述成“定頻”。我們從兩個方面提升文本的忠實度。一是對商品知識圖譜中的商品屬性信息進行建模;二是我們提出了一個屬性信息Only-copy機制,在解碼屬性詞時,僅允許從輸入文本中複製。

(3)第三個場景是企業採購場景:我們構建了採購知識圖譜,圖譜中包括商品、供應商、製造商、品牌商、行業、場景等實體的關係。基於採購圖譜,我們提供一系列的智能選品、智能比價、供應商智能匹配等多個智能化採購服務工具與應用。

(4)第四個場景是基於藥學知識圖譜的處方審覈引擎。藥學知識圖譜是從藥品說明書中通過規則、模型抽取的。這個功能已經在京東的互聯網醫院上線,每天審覈大量的的處方,可幫助藥劑師提高處方審覈的效率。

7.InfoQ:在落地方面,您認爲當下NLP領域比較成熟的是什麼?正在飛速發展中的是什麼?爲什麼?

吳友政: 比較成熟的NLP技術方向是文本理解與數據挖掘,包括搜索的Query理解、推薦的內容理解等、機器翻譯、人機對話等。這些已經走進我們的日常生活。

飛速發展的NLP技術包括數字內容生成、知識圖譜、多模態、虛擬數字人等。這些技術得以快速發展我覺得有兩方面的原因:一是深度學習等技術的快速很快,讓這些NLP應用的實現變成了可能,而且在某些特定場景還能達到不錯的效果。另一方面,巨大的需求促進了技術進步,是技術進步的驅動力。

8.InfoQ:根據您的瞭解,目前NLP領域面臨的比較大的挑戰是什麼?有一些不錯的解決思路了嗎?

吳友政: NLP主要有三大挑戰:歧義性、多樣性、知識表示/構建/融合。除此之外,還有符號化的知識跟神經網絡之間的聯合建模、推理能力、可解釋NLP等都存在很大的挑戰。

我覺得有些挑戰,目前還沒有特別成熟的方案。不過研究人員都在做很多探索和嘗試,也取得了很好的進展。比如低資源NLP正在通過預訓練、無監督學習、半監督學習、遷移學習、少樣本學習(Few-shot Learning)、零樣本學習(Zero-shot Learning)不斷取得進步。

語言的歧義性/多樣性的挑戰也可通過多模態輸入彌補單模態信息的缺失,進而提高文本單模態模型的效果。

9.InfoQ:未來一年,自然語言處理領域的哪些進展可能是值得關注的?京東在這方面有哪些規劃?

吳友政: 預測是很難的事情,我可以簡單說下個人比較關注的方向吧。

第一個還是預訓練技術:基於自迴歸、自編碼、對比學習的預訓練是非常值得關注的方向。預訓練會向更大、更小巧、更高效的方向發展。

第二個是知識與數據結合驅動:模型加入知識指導,通過知識和數據兩者聯合實現深度語義理解,支撐上層NLP任務。未來知識圖譜將朝着數據規模更大、模態和關係更豐富、建模方法更加自動和智能的方向去發展。

第三個是多模態擬人化人機交互。複雜交互場景下的多模態人機交互服務是人工智能的重要技術需求。人機交互從命令式交互、圖形交互、自然交互、開始走向多模態多輪對話的交互。多模態多輪對話的人機交互要求機器具備人類聽覺、視覺、情感交流能力、場景知識儲備、語義理解和多輪交互能力。而且多模態多輪對話人機交互也有巨大的應用需求。

京東在上述幾個方向都已開展了一些工作。在多模態擬人化人機交互上,我們申請了國家級的重大項目,希望在這個領域實現一些技術突破。在應用上,多模態擬人化交互技術會應用到智能情感客服,智能營銷導購和智能消費媒體三個典型的場景。

NLP技術還有很大的發展空間,非常值得期待。

推薦閱讀

歡迎點擊【京東科技】,瞭解開發者社區

更多精彩技術實踐與獨家乾貨解析

歡迎關注【京東科技開發者】公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章