BERT+Transformer或可成爲NLP領域的大一統模型?

NLP 是人工智能中最難的問題之一,對它的研究與落地充滿了挑戰性。預訓練模型 BERT 的出現給自然語言處理領域帶來了里程碑式的改變。我們採訪了新浪微博機器學習團隊 AI Lab 負責人張俊林老師,他推測,BERT+Transformer 有可能在未來幾年替代掉 NLP 各個不同應用領域之前五花八門的具體技術,或可成爲 NLP 領域的大一統模型。另外,他也是此次 QCon上海2019 “人工智能應用與實踐”專題的出品人,對這個專題感興趣的同學可以關注一下。

InfoQ:首先請您做一下簡單的自我介紹,包括您的工作經歷和學習經歷。

張俊林:我目前在微博工作,擔任微博機器學習團隊 AI Lab 的負責人,主要是推動業界先進技術在微博的信息流推薦業務落地。之前在阿里擔任資深技術專家並負責新技術團隊,也在百度鳳巢做過。博士畢業於中科院軟件所,主要的專業興趣集中在自然語言處理及推薦搜索等方向上,喜歡新技術並樂於做些技術分享,之前寫過兩本書《這就是搜索引擎:核心技術詳解》以及《大數據日知錄:架構與算法》,這兩本書的讀者評價還可以。

InfoQ:老師現在主要研究的領域是自然語言處理(NLP)和推薦系統,能介紹一下 NLP 技術嗎?它有哪些落地場景?

張俊林:NLP 是個非常大的技術方向,包含很多子領域,比如文本分類、文本摘要、機器翻譯、閱讀理解、對話機器人……等等,很多子方向。不過不同子領域面臨的核心目標是一致的:就是如何讓機器真正理解自然語言文本。這個目標難度還是很高的,不說是 AI 的終極目標估計也差不太遠。當然,目前的技術水準,距離這個目標明顯也差得很遠。

至於落地場景,其實有許多,只是它作爲技術支撐,比較靠後,不太容易被察覺出來。典型的例子比如搜索、推薦、信息流等相對成熟的應用領域,也有最近比較熱的應用領域,比如對話機器人、智能客服、閱讀理解等很多應用領域。一般大公司都有專門的 NLP 團隊,這說明了 NLP 的應用普遍性,只是普通用戶有時候很難直觀體會到它的存在。

InfoQ:似乎目前 NLP 領域很少出現“獨角獸”企業,也有人說,自然語言處理是個大坑,那麼您認爲 NLP 落地有哪些難點?

張俊林:NLP 各種任務更偏向後臺技術平臺的形式,是一種能力輸出,往往不會是一種業務形態,它一般是支撐某些業務形態的支撐技術。總體而言,跟用戶能夠直接感知到的產品形態比較,整體靠後一些,一般終端用戶很難感知到它的存在。能夠在產品形態方面直接感知到 NLP 技術的業務領域其實很少,比如對話機器人,智能客服等這些算是比較靠前的業務形態,大多數都偏靠後一些。NLP 是個技術領域,和產品形態本來也沒必然的關係。所以,我覺得本來就不應該出現NLP 領域的“獨角獸”企業這種說法,如果說是某個獨角獸企業,大量應用了 NLP 技術,可能會更準確一些。當然,這種獨角獸企業確實也很少,因爲獨角獸企業本來就很少,攤上用 NLP 技術的更少,所以也正常。

要說落地難點的話,其實本質上就一個:就是技術不夠成熟,不足以支撐好的應用體驗。當然,這個分具體的子領域,有些領域,比如文本分類聚類、NER 命名實體識別等一些簡單任務,其實落地效果已經不錯了,也被普遍應用。而對於很多高難度的應用領域,其它問題都是表面問題,本質問題其實是技術不夠成熟。

上面說的這個問題有長期性,不是短期內能夠解決的。如果說NLP落地短期難點的話,比如Transformer和Bert這種效果很好的新技術,可能因爲模型比較重,高效的分佈式大規模訓練系統以及快速的在線服務,可能是影響大規模應用目前的短期障礙,但是我相信很快會有大公司開源出一些好用的系統的,所以其實問題也不大。

InfoQ:發展到現在,自然語言處理領域出現了很多令人激動的新想法與新工具,比如號稱最強 NLP 預訓練模型的 BERT,它的出現對 NLP 領域有哪些重大影響?

張俊林:BERT 的出現不僅僅是自然語言處理領域的里程碑,即使放到人工智能這個大的領域,也是非常重要的里程碑性的工作。對我而言,我覺得 BERT 的出現比把深度學習引入 NLP 還要重要些,主要原因是 BERT 的兩階段模式效果遠遠超出預期。另外,它給 NLP 研發者趟通並指明瞭一條光明大道:就是通過自監督學習,把大量非監督的文本充分利用起來,並將其中的語言知識編碼,對各種下游 NLP 任務產生巨大的積極作用。這是非常了不起的貢獻,在 BERT 之前,其實很多工作希望能夠達到這個目的,但是應該說路並沒有被趟通,而 BERT 證明了這條路是能走通的。

而且我的個人判斷是:BERT+Transformer 有可能在未來幾年替代掉 NLP 各個不同應用領域之前五花八門的具體技術,有可能成爲一個NLP領域的大一統模型,這在 NLP 歷史上也是沒有出現過的情形。總而言之,BERT 的重要性再強調也不爲過。當然,我這個人一向在技術路線上比較激進,所以上述觀點純屬個人判斷。

InfoQ:中英文語言有相當大的差異,那麼 BERT 在處理中文語言時,會不會比處理英文語言更難?他們有哪些異同?

張俊林:我不認爲 NLP 的技術在處理英文和中文的時候有什麼本質的區別,也包括 BERT 在內。大家一般的傳統意識會認爲中文更難一些,因爲中文是表意文字,而且中文還需要分詞等等。我覺得這個不是什麼重要區別,如果我們具備一個強大的特徵抽取器,那麼理論上語義作爲特徵,能夠被編碼到參數裏,所以是中文是英文無所謂。至於中文分詞,我覺得並不是必須存在的,如果特徵抽取器足夠強,中文 NLP 任務也應該以字作爲輸入,至於哪些連續的字應該作爲一個單詞是合理的,這應該作爲內部特徵,由特徵抽取器來自動做,人並不需要看到這些單詞。目前很多 NLP 任務,都是先分詞,再往後走,以前是這樣,但是目前技術發展足夠成熟了,現在,包括以後,我不覺得這是必須具備的步驟。

總體而言,我覺得之所以之前大家普遍認爲中文比較難,是因爲技術發展不夠成熟,沒有一個強大的特徵抽取器導致的。所以需要很多人工的工作,或者需要把 NLP 劃分爲多個階段,把一個難題分而治之,但是也會帶來相應的問題,比如錯誤累計和放大等問題等。隨着技術的發展,我覺得這些都不是必要的,不同語言不是問題,所有任務都應該 End to End 的被解決,包括分詞等,我感覺也不是必須單獨存在的。

InfoQ:許多推薦系統產品都離不開 NLP,NLP 在新浪微博有哪些業務形態?做推薦系統需要對 NLP 有很深的研究嗎?

張俊林:NLP 在微博主要是作爲推薦業務的後臺支持方向存在的,也有比較多的適用場景,比如要深入理解用戶的興趣,需要能夠理解用戶發的或者互動過的微博內容,而對微博內容的理解,以及用戶興趣的建模等,都離不開先進的 NLP 技術積累。目前,我們也大規模地應用了 BERT 等模型,並取得了較好的業務效果。

對於推薦系統算法工程師來說,對 NLP 的瞭解不需要特別深入,但是也應該具備相關知識和經驗。一方面來說,文本內容往往是很多推薦場景的重要特徵,而想要把這塊做好,選擇先進的 NLP 技術對於知識儲備還是有要求的;另外一方面,文本特徵可能只是很多類型特徵中的一種,而且推薦的知識體系和 NLP 還是區別較大(當然,以後也許會被統一到 Transformer 也不一定,不過目前還是區別較大),所以貌似也不需要對於 NLP 有特別深入的瞭解,也能把推薦這個事情做好。

InfoQ:新浪微博的信息推薦系統有哪些技術棧?

張俊林:因爲微博的推薦場景是個典型的信息流業務,所以包含了很多環節。從偏後臺的物料質量評估、用戶興趣建模、微博內容理解、圖片視頻理解以及多模態融合,到業務前臺的推薦系統的召回、粗排以及精排等推薦環節,以及離線及在線的大規模機器學習模型訓練及服務等。算是一個標準的信息流推薦系統。

InfoQ:爲打造更精準的推薦系統,新浪微博做了哪些工作?有計劃引入一些新的技術嗎?或者說,有在關注哪些新技術?

張俊林:近兩年來,在推薦系統的召回和排序兩個環節,微博機器學習團隊都進行了大規模的技術升級,並獲得了明顯的業務效果。召回層面,我們目前已經實現了大規模 FM 統一召回模型,正在逐步替代傳統的多路召回模型,並在各項指標取得了非常明顯的業務效果;排序層面,我們經過了 LR、大規模 FM、FM+FTRL 在線模型等不斷的模型升級,每次大的模型升級都取得了收益,目前也小流量了以 DeepFM 爲基礎的深度學習排序模型。在物料比如微博的理解方面,目前也在嘗試多模態的技術路線,並取得了一定進展。

在業務團隊將新技術不斷升級落地的同時,微博 AI Lab 也不斷嘗試些推薦領域重要方向的新技術,並推動這些新技術在業務落地。比如我們在 18 年提出的雙線性 FFM 模型,在獲得和 FFM 模型相近效果的情況下,參數規模減少了幾十倍,也提出了幾個新的深度學習排序模型,比如 FibiNet 以及 FAT-FFM 模型,這些工作陸續發表在 Recsys2019 以及 ICDM2019 等國際會議上。

我個人比較關注統一召回模型技術以及新型的 CTR 模型上。感覺這兩塊在業界來說,還有很大的優化空間,是值得深入探索的方向。

InfoQ:2019年已經過半,您認爲在未來,推薦系統和 NLP 領域還有哪些方向值得研究?

張俊林:工業化的推薦系統經過最近幾年的發展,目前已經進化到了深度學習時代,代表性的模型有很多,比如 Wide& Deep 或者 DeepFM 模型。但是跟 NLP 或者圖像領域相比,很明顯深度學習在實用化的推薦系統應用場景還未能發揮符合人們期待的效果。並沒有哪個深度學習推薦模型能夠相對傳統模型有非常大的性能提升,這裏面原因可能比較複雜。從模型角度看,我比較看好將 Transformer 模型應用在推薦領域,大家知道,Transformer 在 NLP 裏面已經大放異彩,而且從機制上,它是比較適合用來做推薦或者 CTR 模型的。但是可能仍然需要針對推薦領域的特點做些改造,直接應用效果也沒有太體現出來,但是總體而言,我個人比較看好這個模型。當然,從實用化的推薦引擎角度,還有很多值得關注的點,比如多模態融合/多目標、多任務與 Transfer Learning 以及 AutoML 的應用等,都是很有前景和值得探索的方向。剛纔講的是排序模型和推薦機制,至於推薦領域的另外一個重要環節:召回階段,我覺得采用模型統一召回代替傳統的多路召回是個比較明顯的趨勢。

至於 NLP 領域,自從 BERT 的出現,應該說 NLP 各個應用領域進入了一個新時代。Bert 在相當多的 NLP 應用領域使用後,取得了目前最佳的效果,而且不少領域有大幅度的性能提升。這預示着大量無監督數據開始被 NLP 真正使用起來,這個如果能用好威力無窮。而且目前看,BERT+Transformer 有統一 NLP 各個子領域的能力和趨勢,這也是非常好的一個進展。當然,因爲 BERT 和 Transformer 的出現時間還比較短,所以大家其實對這兩者理解還不夠深入,對其中真正發揮作用的因子還沒有整理清楚,所以深刻理解兩者的作用機理,以及針對性的對兩者進行改進,是非常值得深入探索的方向。比如如何將 BERT 應用在文本生成領域,如何融合多模態的信息等很多方向都具備很大的挑戰。

InfoQ:您覺得深度學習在推薦系統的應用方面存在哪些問題?

張俊林:就像上面說的,儘管推薦領域目前也進入了深度學習時代,但是明顯技術前進的步伐緩慢,應該說深度學習在推薦領域還沒有發揮出特別大的作用。一方面,並沒有哪個 DNN 推薦模型相對傳統模型有幅度巨大的效果提升,包括從模型深度來說,圖像領域比如 ResNet 已經做到了幾百層,NLP 領域的 Transformer 也能夠做到了 40 到 70 層,而你會發現 DNN 版本的推薦系統目前還只能做到 3 到 5 層,深度做不起來。說深度貌似沒說到點上,其實不然。我們回顧一下,在 ResNet 出現之前,圖像領域最多隻能做到 20 多層,NLP 也只能做到超不過 10 層,ResNet和 Transformer 突破了這種情況,把深度做起來了,效果也跟着深度做起來了。其實深度和效果是有比較緊密的正相關作用的,所以我個人覺得,目前推薦模型,如何把深度做起來可能是比較核心的問題。如果深度做不起來,效果可能也很難獲得很大的提升,背後的原理,因爲是我個人的猜測,所以就不細說了,避免造成誤導。

其實,之所以推薦模型感覺進步慢,還有一個隱藏的比較深的原因,那就是領域內缺乏超大規模的真實訓練數據,儘管網上可以下到個別規模比較大的數據,但是公認的規模大、高質量的推薦數據還是嚴重缺乏的。這其實是比較拖技術發展後腿的一個缺陷。如果一個新技術是在小規模數據上驗證的,並沒有任何保證能夠在大規模數據集合上這種技術優勢仍然會存在;而很多新技術的論文使用的數據規模比較大,但是都是私有數據,其他人無法復現或者在現有技術上改進。這嚴重製約了技術發展步伐。如果能夠有幾個高質量、大規模的推薦數據,那麼大家就可以在這些數據上不斷嘗試新技術,明顯技術迭代速度會快很多。一個很好的參照就是 NLP 的閱讀理解領域,從早期的小規模閱讀理解數據,到大規模但是難度不太高的 Squad 1.1,再到更難的 Squad 2.0,每次數據集規模的擴大及難度的提高,都帶來很多新的有效模型的提出。兩者道理其實是類似的,而推薦領域這塊明顯落後太多。

InfoQ:在即將於10月份舉辦的 QCon上海2019 中,您將擔任“人工智能應用與實踐”專題的出品人,可否講講您的策劃思路?

張俊林:因爲我參加過多次 InfoQ 舉辦的會議,也擔任過多次人工智能專題的出品人,在這方面多少還是有些經驗。總體而言,我覺得應該重視以下幾點:首先,專題裏的講座應該具備技術前沿性和先進性,同時具備落地的實用性,這一直是我作爲專題出品人對專題內講座的一個基本期待;其次,在話題方面,考慮人工智能領域覆蓋的全面性,我們會邀請各個大的互聯網公司技術專家,在搜索推薦、自然語言處理、圖像與視頻以及人工智能工程架構等多個方面進行經驗分享;再次,我一般對分享嘉賓以及分享內容有些比較高的期待,嘉賓希望是有經驗的,包括專業實踐經驗以及比較豐富的演講經驗,分享內容則希望乾貨儘可能多一點。所以,我會按照上述幾個原則去策劃這個專題,儘可能給大家一個能夠充分交流和學習的機會。

受訪嘉賓:

張俊林,中國中文信息學會理事,中科院軟件所博士。目前擔任新浪微博機器學習團隊 AI Lab 負責人。在此之前,張俊林曾經在阿里巴巴任資深技術專家並負責新技術團隊,以及在百度和用友擔任技術經理及技術總監等職務。他是技術書籍《這就是搜索引擎:核心技術詳解》(該書榮獲全國第十二屆優秀圖書獎)、《大數據日知錄:架構與算法》的作者。 他本科畢業於天津大學管理學院,之後在中科院軟件所直接攻讀博士學位,研究方向是信息檢索理論與自然語言處理,就學期間曾在 ACL2006、COLING2004、IJCNLP2004 等國際頂級會議發表多篇學術論文。另外,他在此期間領導設計的搜索系統曾在美國國防部DARPA主持的TREC高精度檢索系統評測中取得綜合排名第一名的優異成績。近年來,陸續在 Recsys2019 以及 ICDM2019 等國際會議發表多篇深度學習推薦系統相關論文。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章