阿里巴巴副總裁司羅：達摩院如何搭建 NLP 技術體系？

在 CSDN 主辦的第三屆“AI 開發者大會（AI Procon）”主會上，作爲阿里巴巴副總裁、達摩院語言實驗室首席科學家、ACM 傑出科學家，司羅在題爲《爲商業搭建語言橋樑》的演講中，介紹了 NLP 的技術發展及阿里在該領域的落地實踐。

演講者 | 司羅

整理 | 王金許

責編 | 唐小引

出品 | CSDN（ID：CSDNnews）

司羅把人工智能分爲四個層面。在計算智能層面，近年來取得了一定成就，而在更高層面的感知、認知和創造智能上還在探索中。

感知智能是指找出自然界的實體，比如找到新聞、故事中的人名、機構名、地址等相關信息。認知智能是在這些實體間找到相應關係，並進行有效推理，比如在海量新聞、故事之中，找到某個事件發生、發展、高潮和結束的整個過程。而創造智能是更高的層面，比如是否可以由計算機做出內容自洽的長篇小說等相關內容。

他認爲，要實現完整的人工智能，離不開自然語言處理技術完成相應的語義理解能力。

作爲“人工智能皇冠上的明珠”，自然語言智能要實現的是人與計算機之間用語言進行有效通訊。它融合了計算機學、數學、統計學、心理學、語言學等學科於一體，涉及自然語言的分析、抽取、理解、轉化和生成等多個課題。

7 月 3 日上午，在 CSDN 舉辦的第三屆“AI 開發者大會（AI Procon）”主會上，作爲阿里巴巴副總裁、達摩院語言實驗室首席科學家、ACM 傑出科學家，司羅在題爲《爲商業搭建語言橋樑》的演講中，介紹了 NLP 的技術發展及阿里在該領域的落地實踐。

他總結了 NLP 技術近年的飛速發展有三大趨勢：

第一，深度語言模型的發展，引領很多自然語言技術和應用都取得了非常快的進步；
第二，越來越多的傳統公有云服務技術從通用功能走向更多定製化服務，提供更精準、準確的服務；
第三，自然語言商業化的途徑，一定是與行業和場景緊密結合，只有這樣，才能更大發揮自然語言技術的商業價值。

以下是司羅在大會上的演講內容，由 CSDN（ID：CSDNnews）編輯：

阿里巴巴是一家技術驅動的公司。我們非常深刻的認識到，人工智能、機器智能、自然語言智能的重要性，所以我們大約三年前成立了達摩院語言實驗室。首要的目標是構建阿里巴巴自然語言技術體系，能夠支撐阿里經濟體內部關於自然語言的技術和相關的應用。其次，我們的技術是開放的，希望能夠開放出我們的技術賦能阿里巴巴的合作者，發展普惠的自然語言技術。第三，我們希望能夠創新自然語言技術，和學術界、工業界的朋友們一起能夠探索未來智能。

達摩院語言實驗室成立三年來，進行了大量技術的深入研發，也參加了一些技術評測，在很多評測之中取得了比較好的結果。

比如在 2016 年，ACM CIKM Cup 個性化電商搜索的第一名，2017 年年初美國標準計量局信息抽取英文實體分類比賽第一名，2018 年，在著名的 SQuAD 機器閱讀理解中，首次在精確閱讀方面超越了人類的結果。2018 年，機器翻譯評測（WMT）取得了 5 個語向自動評測的第一名，以及最近在深度語言模型方面取得的好成績。

NLP 技術平臺

我們的 NLP 技術是通過很多的平臺來更加規模化的支持相關業務，這裏我會介紹幾個相關技術平臺。

首先是我們打造的阿里自然語言技術平臺，這個平臺從底層的自然語言數據，包括分詞詞性數據，實體語料庫、新聞語聊庫、情感語聊庫等，收集了大量自然語言相關的數據。

在此之上，我們構建了基礎算法，包括從最簡單的分詞開始的詞法分析到句法分析、語義分析、篇章分析等等。通過這些基礎技術，我們構建了垂直技術，如內容搜索、內容推薦、問答、情感分析、意圖識別等等。這些技術結合起來，支撐了很多跟 NLP 相關的應用，如搜索、推薦、廣告、客服、物流等相關工作。

我們打造的 NLP 技術平臺，在阿里內部有了比較大的影響力，現在每天有超過 1000 個業務方使用，每天的調用量有幾千億上萬億次。

我希望簡要介紹的第二個技術平臺是翻譯技術平臺，阿里巴巴是一家國際化的公司，所以國際化戰略一定是需要機器翻譯、多語言技術來全面支撐。我們打造的翻譯技術平臺，從底層的語料平臺開始，從因特網上抓取各個行業的語料，包括衆包羣員的能力、相關知識庫的建立，我們也建設了多語言 NLP，包括多語言分詞、實體識別等相關的技術。

我們的核心機器翻譯技術，包括傳統的統計翻譯技術，也包括最近兩年比較時興的神經網絡機器翻譯技術，同時我們也有自己的核心技術特點，在一些方面有我們創新性的工作，比如說如何把詞典翻譯原來的沉澱下的人工語料融合起來，與數據驅動的機器翻譯模型相結合。

那麼我們所做的知識驅動的機器翻譯，如干預機制等，能夠大幅度的提升重點術語的翻譯的準確性。同時在人機協同，通過機器翻譯，大幅度提升員工翻譯的效率以及多模態翻譯等方面，做了很多一些創新性的工作。這些技術組成了我們解決方案，包括電商，比如說標題、詳情、評論等相關翻譯，也包括人機協同平臺的翻譯、多模態翻譯等等，這些技術支撐了廣闊的阿里經濟體內部的國際化場景。目前，有幾十個業務方每日的調用量有大約 10 億次的調用量，創造了數億美元的國際跨境貿易和其他國際業務的商業價值。

前面兩個技術平臺主要是用於阿里經濟體內部的賦能，我們的技術是開放的，希望把我們的技術開放出去，讓更多的合作者能夠受惠。

當我們走向更加寬廣的外部場景時，發現 NLP 的需求多而雜，場景化、業務化有高度定製的依賴，而且很多重要的業務，數據高度的隱私化，這缺少一些平臺化支持這些非常多樣化的、複雜的、有定製化需求的場景。

我們設計了 NLP 自學習平臺，這是一個面向低齡算法基礎用戶設計的，包括數據標註、訓練預測一體化的服務平臺，現在也已經通過阿里雲向外輸出平臺的能力，它有易用、快捷、專業、成本低的特點，也就是說只需要少量領域相關的數據，就可以得到比較高的準確率。

經過一段時間的積累，我們在一些重要的行業，比如說電商、通信、司法、金融等行業也積累了大量的行業數據和知識。這些數據和知識與我們提供的的 NLP 原子解決方案能力在一起，能夠幫助我們的合作者創造大量的業務價值。

這張畢業證顯示的是我們 NLP 學習平臺提供的一些能力事例，包括原子能力，文本抽取、文本分類、短文本匹配，包括場景化裏支持電商的商品評價分析、情感分析，也包括我們的垂直應用、智能合同管理等方面的工作。

比如文本信息抽取方面，我們可以從合同文本之中抽取出甲方、乙方等合同重要的要素。從簡歷中，我們可以抽取到重要的個人信息以及工作經歷等等相關的信息。文本分類是另一個非常重要的廣闊的應用，可以提供很多場景下重要的解決方案。比如對於電商評價、電商溝通的文本，我們可以識別出廣告、辱罵等相關內容。

另一方面，對於評價來說，我們也可以做出情感分析，這個評價背後所代表的是正面的還是負面的情感？是和哪些屬性相關的情感？比如說電視機屏幕很亮，但是音量不夠，對於不同的屬性就有不同的情感。還有在意圖識別的問答場景之中，我們可以對短文本的意圖通過分類做出比較精確的識別判斷。

NLP 語言模型

前面提到的技術平臺背後有很多自然語言相關的技術，其中一項非常核心的技術就是語言模型，語言模型用來描述自然語言的表示順序、結構、意義生成的過程。傳統的語言學方法是使用上下文相關文法等一些規則性的表述，來對語言進行建模。但這樣的方法對於新語法、新語言、新詞意義的變化，適應性比較差。那麼所以目前比較流行的是數據驅動的方法，特別是最近幾年深度學習相關的語言建模的方式，通過大量的語料和相關的應用任務，學習語言的表示和結構。

Bert 是谷歌 2018 年所建立的深度語言模型，自 2018 年發佈以來，帶動了 NLP 方面進一步深度語言模型的建設，起到了比較大的影響力。

阿里巴巴達摩院也在預訓練語言模型上做了很多的工作，其中 Structbert 模型是一項重要的基礎工作，它充分利用詞句之間的結構關係，來對語言進行建模，而且它可以把分類和生成兩種不太相同的任務綜合起來，利用不同的模型，對不同類型的任務進行適配，從而產生更好的效果。Structbert 模型的論文發表在了今年 ICLR 的會議上。

從詞、句這樣的文本結構信息，也可以自然地擴展到圖文結構信息，我們能夠借用 OCR 輸出的關於文本框和文本片段在一頁之中的位置信息，來更好的分析不同文本段、文本框之間的關係。同時對於表格來講，我們可以根據每一個槽位在表格中所處的位置，來進行更加細緻的語義分析，加入這些圖文結構之後，可以幫助我們更好的理解相關的文字信息的意義。相應的工作也廣泛應用於海關、報關、銀行單據、信息抽取等相關的場景。

深度語言模型在搜索、排序、機器閱讀理解方面也有非常深刻的應用。比如說深度語言模型能夠更加精確的匹配文本之間的相似度，所以應用到搜索排序過程中可以提高搜索的準確率。

機器閱讀理解是另一項重要的應用。它是指對於用戶提出的一個問題，能夠在文檔之中直接找到相關的答案。由於深度語言模型可以更好的做底層語義理解，所謂應用於機器閱讀理解，也能夠產生更加精準的答案。我們相應的工作在 MSMARCO 機器閱讀理解和搜索的技術評比中也都取得了好的成績。這些技術廣泛的應用於客服、企業、政府搜索等相關的業務場景。

自然語言技術應用於廣闊的各行各業的場景，我個人認爲需要有數據、知識、技術和場景不斷的迭代優化。比如，在阿里經濟體內部，我們要充分利用豐富的企業內部場景，同時通過阿里雲和合作伙伴開拓廣闊的外部的業務場景進行打磨，能夠積累全面的多領域的數據和知識。

基於這些數據和知識，我們可以建立更加完善的、領先的基礎和應用技術，從而更好的提供廣闊的內外部場景的相應自然語言技術，這樣形成迭代升級，不斷進行正反饋，能夠提升算法的效果，增加業務的價值。

NLP 應用場景和解決方案

我簡要介紹一下幾個重要業務場景，以及所設計的自然語言相關的解決方案。

首先是電商翻譯業務場景應用於跨境電商等等領域。我們提供的電商翻譯場景的解決方案不是單點機器翻譯的技術，其實是貫穿整個跨境電商的全流程。比如說在最開始網站信息的本地化，我們如何提供本地化的地道的語言來進行網站的建立。同時，我們需要從其他的搜索引擎和社交媒體，通過地道的引流的語言，能夠對用戶、消費者進行引流。

用戶和消費者到達網站之後，有可能需要做跨語言的商品搜索。比如俄羅斯的用戶可能用俄語來搜索，但是我們原發的商品是英文的商品，所以我們需要進行跨語言搜索，同時我們需要把商品信息的內容翻譯成本地語言，包括標題、評價、圖片等等很多的信息來促進用戶的轉化。之後在支付、物流、客服等場景，也需要提供相應的翻譯和多語言解決方案。所以我們提供了跨境電商整體流程的翻譯和多語言解決方案，在阿里的業務場景以及有很多合作伙伴的合作中產生了比較大的價值。

另一個翻譯相關的平臺性產品是釘釘翻譯服務平臺。我們都知道釘釘逐步變成企業服務、企業溝通的一個重要的平臺。釘釘上很多的企業都有翻譯和多元需求，我們希望能夠提供一站式翻譯的能力，來幫助這些企業解決翻譯需求。

我們提供了一系列的工具產品，包括文檔翻譯、文本翻譯、語音圖像翻譯、即時信息翻譯等等。同時我們的平臺服務不只有機器翻譯的能力，也包括人機協同的能力，因爲很多重要的信息最終還是需要專家來確認翻譯的結果，我們提供完整的一站式的解決方案，希望能夠爲釘釘上的企業用戶更好、更高效的解決翻譯和多語言相關的需求。

地址信息管理系統是我們現在通過阿里雲向外輸出的一個新產品，目前正處在公測階段。它的定位是基於地址知識庫能夠對多元、多模態，比如包括文本、語音相關的地址進行解析、搜索、匹配、標準化、編碼等等多種能力。

其中第一個核心能力就是匹配歸一，我們可以把多樣不同形式表示的同一個地址進行匹配歸一，還可以對這些地址進行糾錯、補全等等。第二，我們提供精細到戶室號的標準化解決方案，能夠提供更加精準的地址相應的定位。第三，我們現在正在研發語音對話地址推理系統，可以廣泛的應用於客服以及報警等等相關的應用中。

比如報警通話大約有 20~30%的時間，其實都是通過語音在確認相應的地點，本身是一個很大的成本消耗和時間消耗。我們研發的基於語音對話地址推理系統，根據語音識別的結果上下文，能夠精準的找出相應的地址信息，能夠大大提升整體的通話的效率。

事件分析是自然語言一個非常重要的任務，我們提供了事件分析的能力來實現事件文本的結構化圖譜化，便於數據的串並、檢索、推理等場景。我們對於一些重要行業的實體和關係有了大量的數據和知識積累，可以識別出這些實體，並找出它們相應的關係。

泛通訊是一個非常重要的行業，達摩院和阿里雲通信一起攜手，希望通過 AI 賦能通訊行業來助力資源型的產品和相關智能化升級。對於短信、語音、郵件等都設計了相關的賦能解決方案。比如在短信方面，通過音辨、形變模型的建立，能夠更好地識別短信之中一些涉黃、涉暴力、涉賭等相關的風險信息，能夠幫助過濾危險短信，這樣降低通道被關閉的風險。同時，我們也可以通過文本意圖識別來識別出短信所包含的行業和意圖指向，這樣能夠更好的和底層通道進行匹配，提高整體的發送效率，能夠更好實現更多的商業價值。我們也在語音、郵件等方面，把我們的功能和泛通訊的業務場景緊密結合起來，通過 AI 賦能泛通信行業。

智能司法是一個有着巨大社會價值的行業，我們所做的工作是希望和一起開放出算法能力，集成在他們的解決方案之中，能夠更全面地賦能司法行業。

隨着司法建設的不斷深入，其實是有越來越多的案件進入司法流程，但法官人數和法官時間是沒有大的增長，所以需要我們全面提升整體司法的效能。我們提供的相應解決能力，貫穿了司法全流程。

特別是在庭審以及判決這些重要的階段，比如說庭審階段，我們通過識別結果，能夠找到相應司法重要的案由、要素、爭議焦點等等信息，把這些信息通過摘要的形式反饋給法官，甚至能夠建議法官詢問什麼樣的問題，之後能夠自動生成相應的判決書，大大加速了庭審的過程。我們在很多地方已經落地，在一些重要的案由上，能夠從幾十天的庭審流程的時間降低到一兩天庭審的時間，大大提升了效率。

智能合同是我們通過 AI 能力賦能行業的一個重要方向。我們都知道，合同是規範企業間商業交易的重要的手段，我們的工作是希望能合同管理的流程來提升管理和審查合同效率。

我們主要的工作分爲三方面，合同審查對於合同之中的重要要素進行識別，進行查缺、對比，看重要的要素是否有缺失、有矛盾等等。我們通過所積累的企業的大量的數據，來判斷合同涉及的雙方是否有履行合同所涉及大量的風險。還有合法合規性檢查，合同是否符合相應重要的行業法條法規等等。我們通過這些能力能夠更好地提升管理和審查合同效率，目前已經和多家大型企業合作。同時，我們也提供行業相關的定製化合同、智能管理的能力。

醫療是一個有着非常大社會價值和商業價值的行業，我們的 NLP 技術覆蓋了醫學文本結構化分析、醫學信息抽取、數據歸一，輔助診斷等方方面面的能力，通過這些能力和相應的 ISV 合作，用於醫院和衛健委的很多醫療行業的流程性管理中。比如診前診中的輔助診療、診後管理病例質檢和 DRGs 保險相關的技術科研，也提供醫療翻譯等等相關的能力，目前已經落地數 10 家醫院、衛健委和疾控中心等等。今後我們會更加深入醫療 NLP 這些基礎方面的工作，同時也希望和更多的 SP 合作，構建更大的產品、技術和業務的影響力。

阿里達摩院語言實驗室的目標是構建自然語言技術體系，賦能合作者發展普惠的自然語言技術，同時也非常希望和學術界、工業界的朋友一起創新自然語言技術，探索未來智能。

系列閱讀：

張鈸院士：探索第三代人工智能，需要勇闖無人區的人才！