復旦大學黃萱菁：自然語言處理中的表示學習

不到現場，照樣看最乾貨的學術報告！

嗨，大家好。這裏是學術報告專欄，讀芯術小編不定期挑選並親自跑會，爲大家奉獻科技領域最優秀的學術報告，爲同學們記錄報告乾貨，並想方設法搞到一手的PPT和現場視頻——足夠乾貨，足夠新鮮！話不多說，快快看過來，希望這些優秀的青年學者、專家傑青的學術報告，能讓您在業餘時間的知識閱讀更有價值。

人工智能論壇如今浩如煙海，有硬貨、有乾貨的講座卻百裏挑一。“AI未來說·青年學術論壇”系列講座由中國科學院大學主辦，百度全力支持，讀芯術、paperweekly作爲合作自媒體。承辦單位爲中國科學院大學學生會，協辦單位爲中國科學院計算所研究生會、網絡中心研究生會、人工智能學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年6月20日，第16期“AI未來說·青年學術論壇”NLP前沿技術及產業化線上專場論壇以“線上平臺直播+微信社羣圖文直播”形式舉行。復旦大學黃萱菁帶來報告《自然語言處理中的表示學習》。

復旦大學黃萱菁的報告視頻

黃萱菁，復旦大學計算機科學技術學院教授、博士生導師。1998年於復旦大學獲計算機理學博士學位，研究領域爲人工智能、自然語言處理、信息檢索和社會媒體分析。兼任中國中文信息學會常務理事，社會媒體專委會副主任，中國計算機學會中文信息技術專委會副主任。在SIGIR, IEEE TKDE, ACL, ICML, IJCAI, AAAI, SCIS, CIKM, EMNLP, WSDM和COLING等多個高水平國際學術期刊和會議上發表了近百篇論文，負責的多個科研項目受到國家自然科學基金、科技部、教育部、上海市科委的支持。近年來擔任2014年ACM 信息與知識管理會議競賽主席，2015年ACM 互聯網搜索與數據挖掘會議組織者，2015年社會媒體處理大會程序委員會副主席，2016年、2019年全國計算語言學會議程序委員會副主席，2017年國際自然語言處理與中文計算會議程序委員會主席等學術職務，併入選由清華大學—中國工程院知識智能聯合研究中心和清華大學人工智能研究院聯合發佈的“2020年度人工智能全球女性”及“2020年度AI 2000人工智能全球最具影響力提名學者”。

自然語言處理中的表示學習

首先，黃萱菁教授介紹了語言表示學習的內容。語言表示學習是一個非常主觀性的概念，可以從很多角度給一個定義。從認知科學角度，語言表示是語言在人腦中的表現形式，關係到人們如何理解和產生語言；從人工智能角度，語言表示是語言的形式化或者數學描述，以便在計算機中表示語言，並且能夠讓計算機程序進行自動處理。好的文本表示是一個非常主觀性的概念，需要具有很好的表示能力，比如說模型具有一定的深度；能夠讓後續學習任務變得簡單，能夠帶來下游任務性能的提升；具有一般性，是任務或者領域獨立的。

早期的語言表示主要採用符號化的離散表示，詞表示爲One-Hot向量，即一維爲1、其餘維爲0的向量，比如電腦和計算機；句子或篇章通過詞袋模型、TF-IDF模型、N元模型等方法進行轉換。離散表示的缺點是詞和詞之間沒有距離的概念，比如電腦和計算機語義幾乎相同，但是它們的One-Hot表示完全不同，這是不合理的。目前主流語言表示採用更加精確的數學表示，通常使用基於深度學習的表示。深度學習是機器學習的一個子領域，傳統機器學習方法通常需要人工設計的表示和特徵提取方法，深度學習則不需要特徵提取，甚至可以進行自動的表示學習。深度學習在自然語言處理的許多任務中都獲得了重大進展，卷積神經網絡、循環神經網絡、對抗神經網絡等神經網絡一方面可以成功運用於分詞、詞性標註、命名實體識別等基本自然語言處理任務，另一方面也可以極大提升自動問答、對話等應用系統的性能。

接下來，黃萱菁教授的報告內容聚焦於表示學習，特別是語義表示。基於神經網絡的表示學習是將不同粒度文本的潛在語法或語義特徵分佈式地存儲在一組神經元中，用稠密、連續、低維的向量進行表示，這裏的不同粒度包括詞語、短語、句子、句對等。短語在語義層面上類似詞語，結構上類似於句子，不同粒度的語言表示有不同的用途，比如詞語和短語表示主要用於預訓練，服務於下游任務，而句子和句對錶示可以直接用於文本分類、匹配、閱讀理解、語篇分析等具體任務。

詞語表示學習也稱詞嵌入，它把詞語從符號空間映射到向量空間。2013年之前，只有少量工作研究詞嵌入，包括非常有名的、Bengio提出的神經語言模型；2013年之後有了大量新工作，特別有代表性的是word2vec和glove；2016年之後出現了短暫冷卻現象；2018年之後又出現大量新工作，與從前學習相對比較獨立的詞向量不同，新工作學習帶有上下文的語境化的詞向量，經典工作有Elmo和Bert，相關的兩篇論文都獲得了NAACL最佳論文獎。學習上下文無關的詞向量的衆多模型中，word2vec是最高效的算法之一，它包括兩個模型，一個是連續詞袋模型，用上下文信息的平均預測目標詞；另一個是跳詞模型，用目標詞預測上下文，這兩種模型都可以學習高質量的詞表示。不同於word2vec，glove是由斯坦福完成的，它直接建模兩個詞的共現頻率和該詞所對應向量內積間的關係，使它們儘可能接近，作者給出不同維度、不同語料訓練詞向量的結果，在實際研究過程中很有用。

短語和句子表示學習的方法是類似的，都和結構預測緊密相關。幾種常見的語義組合函數都可以用於從詞語序列語義表示生成短語句子的表示，包括遞歸神經網絡、卷積神經網絡、循環神經網絡、Transformer等等，這些方法也可以組合起來使用。

上圖是卷積神經網絡對句子建模的經典工作，採用雙通道CNN得到句子表示，用於文本分類，通過動態Pooling機制解決句子變長的問題。循環神經網絡用於對句子進行序列化建模，爲了解決序列化建模過程中出現的梯度消失或者梯度彌散情況，先後有人提出了長短時記憶單元（LSTM）和門循環單元（GRU）。循環神經網絡可以擴充爲編碼器-解碼器的架構。其中編碼器沒有輸出，在解碼的時候則不需要新的輸入；編碼器用於理解，解碼器用於生成，如果在解碼的時候引入注意力機制，就可以進一步提升模型的性能。

接着，黃萱菁教授介紹了所在項目組在短語和句子表示學習方面所做的工作，他們在句子建模方面做的一項代表性工作是基於門機制的遞歸神經網絡。利用樹結構神經網絡可以獲得句子樹結構，他們對樹結構遞歸神經網絡進行了改進，添加門機制，希望對上下文窗口之間的相鄰字詞組合關係進行更爲精細的建模，從字間的關係構建詞間的關係，從而構建整個句子結構。

上圖所示的例子“下雨天地面積水”，當前目標字是“地”，需要判斷“地”是詞首還是詞尾。“天地”中“地”是詞尾，“地面”中“地”是詞首。實際上，這個句子非常複雜，任何兩個相鄰字都可以構成一個詞。爲了在給定上下文時預測“地”的標籤是詞尾還是詞首，網絡從底層到頂層，遞歸地進行特徵組合。圖中黑色是活躍神經元，空心是抑制神經元，邊表示消息傳遞，實線邊表示接受消息上傳，虛線邊表示拒絕，通過這樣的過程可以得到整個句子的樹結構（上圖中最右側），“下雨天-地面-積水”，還可以通過把所有組合特徵合併到網絡中來估計樹結構的得分，這種模型可以同時得到句子表示和中間結果，可用於分詞、依存句法分析和句子建模等任務。

黃萱菁教授的項目組所做的另一個改進是對二叉樹的改進。句子的表示可以認爲是句中所有詞表示的組合，遞歸神經網絡用一棵句法樹，把詞按照句法樹的成分結構進行不斷地遞歸組合，最後得到整個句子的表示。但是，遞歸神經網絡只能處理二叉樹的結構，而不能方便地拓展到依存句法樹。因此，他們把遞歸神經網絡和卷積神經網絡進行組合，提出了一種可以處理多叉樹的遞歸卷積神經網絡模型，引入卷積層和池化層，從而把遞歸神經網絡拓展到依存句法樹上。再進一步地，黃萱菁教授的項目組發現在自然語言處理中，雖然可以用語義組合的方式得到句子的表示，但實際上並非所有短語句子語義都是合成性的，有一些短語語義不能由成分組合得到，比如馬馬虎虎、九牛二虎和馬、老虎、牛沒有關係。所以爲了提升語義結構組合能力，他們採用了樹結構LSTM，基於句法樹遞歸對句子進行建模，並引入了參數化的控制器，從而能夠自適應確定非葉節點的合成方式是合成性還是非合成性。模型分成三部分，分別是合成性非葉節點、非合成性的非葉節點和控制器。合成性非葉節點相應短語的表示,例如His performance是由子成分表示組合而來的；對於非合成性非葉節點的相應短語表示，例如at fever pitch不是由主成分得來，而是作爲基本語言單位學習得到，具體則使用開關控制器控制合成的方式。

在句對錶示學習方面，許多自然語言處理任務都可以建模爲句對編碼任務，比如句子的重述、蘊含分析、語篇分析等等，句子編碼的目的是給定兩個句子，建模其語義關係來學習表徵。比如句子的蘊含分析，需要預測文本和假設之間是什麼關係，如蘊含關係、中立關係、矛盾關係等等。黃萱菁教授的項目組在句對錶示學習方面所做的工作是對語篇關係進行檢測，即檢測篇章中句子間的關係。以兩個句子爲例，一個發生在Early in the morning，另外一個發生在mid morning，它們之間是承接關係。用詞向量差值可以表現句間關係，把兩個句子的所有詞兩兩做詞向量的差值可以得到位移矩陣。通過位移矩陣可以預測句間關係，比如承接關係對應的矩陣中有大量平行箭頭。另外，由於矩陣大小隨句子長度變化，所以引入Fisher Vector的方法，把矩陣轉變爲定長向量，進行語篇關係分類。同時，項目組還利用門機制組合多種句子匹配函數，採用雙向LSTM表示句中的詞語，每個詞語所對應的LSTM隱狀態就表徵詞語和上下文。爲了度量隱狀態之間的相關性，項目組提出門相關性網絡，它可以組合許多匹配函數，比如雙線性張量和單層神經網絡。

之後黃萱菁教授介紹了近期研究趨勢，包括模型層面研究趨勢、學習層面研究趨勢、理解和解釋層面的研究趨勢。

模型層面包括圖神經網絡和Transformer。真實數據場景中，許多數據結構無法採用現有神經網絡表示，比如社交網絡、蛋白質交互關係、互聯網等等。爲了對這類圖結構數據進行建模，研究者們提出圖神經網絡，它可以建模節點之間的語義關係、語義關聯，可以很靈活地對結構化數據進行表示學習。把圖神經網絡用在語言表示的思路是定義或者學習一個句子的圖結構，並且在圖神經網絡節點中加上上下文特徵。句子結構可以用三種方式表示，分別是序列結構、句法樹結構、任務相關語義結構，沒有單一結構能夠表示所有任務。黃萱菁教授的項目組把Transformer的自注意力機制擴展到圖神經網絡，提出語境化非局部網絡，使得不同任務動態學習結構，它既可以學習節點和邊的屬性，對它進行編碼，也可以學習節點之間的連邊。這兩點使得他們可以根據詞語語境化表示和句子複雜結構更好地學習句子表示。Transformer是這幾年最火的概念，它是全自注意力的機制，完全取代了神經網絡中的經典合成函數，在各種任務上都取得了非常好的結果，它的成功可以歸因於非局部結構偏置，句中任何一對詞的依存關係都可以被建模。通過摒棄複雜語義組合和使用非局部結構偏置，Transformer可以提供更有效的計算，爲Bert等模型打下基礎，也有很好的可擴展性。但Transformer有一些缺點，例如兩兩之間計算開銷非常大，和文本長度的平方呈正比，所以它需要大規模訓練數據。黃萱菁教授的項目組提出了輕量化版本的星型Transformer，把全連接結構改成星型結構，任何兩個節點都可以通過中繼節點相連，這樣模型的複雜度就從平方變成了線性，同樣可以通過中繼節點處理長距離依賴，通過圓環上的弧處理局部依賴。因爲引入了局部依賴，就不再需要Position Embedding，因爲複雜度降低可以適用於小規模和中等規模的數據。

學習層面近期研究趨勢包括元學習、多任務學習、遷移學習等。在處理語言合成性時，如果採用同一個不變參數建模語言合成性，將無法捕捉合成的豐富性並且降低語言表現力；如果爲每種合成策略分配獨立的函數，但這些函數是硬編碼的，就增加了複雜度，會引起數據稀疏。黃萱菁教授的項目組採用元學習的解決方案，他們不是直接採用可學習的參數化合成函數而是引入元神經網絡，元神經網絡可以動態生成真正用於組合樹結構的基網絡參數，從而擴展了模型表現力。多任務學習是一種聯合多個任務同時學習來增強模型表示和泛化能力的手段。黃萱菁教授介紹了他們組一篇通過整合來自多個分詞標準共享知識的論文，論文提出基於對抗策略的多標準學習方法，具體是把每個分詞標準當成一個任務，在多任務學習框架下提出了三種共享和私有模型，平行模式、疊加模式和組合模式。黃色共享層用於提取不變特徵，灰色私有層提取不同分詞標準的私有特徵。進一步地，利用對抗策略，從而可以確保共享層能夠提取所有分詞標準的不變特徵，要求共享層不能預測出分詞具體用哪一個標準語料庫。遷移學習包括兩個階段，第一階段是學習可遷移的知識，第二階段是把知識遷移到新的任務。可遷移的知識可以通過監督學習或者無監督學習方式得到。無監督學習更加熱門更受重視，先通過無監督方式學習可遷移的知識表示，再把知識遷移給新任務。預訓練模型普遍採用無監督學習，其中ELMo採用雙向LSTM；GPT首次用transformer decoder來進行預訓練，decoder相當於是單向的語言模型，等於mask掉當前和後面的詞；BERT是雙向的語言模型，爲了讓預測的時候待預測詞看不到自己，它引入了mask language model，隨機mask待預測的詞，再用雙向語言模型預測這些詞。預訓練模型以ELMo爲開始，以BERT爲發展高潮，之後出現了非常多新的模型，這些模型逐漸發展，訓練語料越來越大、參數數量越來越多、表現性能越來越高。今年他們組的一篇期刊文章對預訓練模型進行了分類，按照是否語境化可以分爲靜態和動態模型，按照模型架構可以分成LSTM、Transformer Decoder、Transformer Encoder、完整的Transformer；根據學習任務來分，分成基於監督學習的模型，比如CoVe，和更多基於無監督或者自監督的預訓練模型。

最後黃萱菁教授簡單總結了當前自然語言處理研究面臨的窘境。許多NLP競賽成績增長越來越慢，表明NLP系統性能趨於平臺化，接下來神經網絡NLP該往何處去？模型的可解釋性將變得越來越重要，現在許多模型有着優越的性能，但是可解釋性很低，如果不瞭解其中優缺點，很難在各種場景下做出最佳的選擇。近期一些研究從可解釋性角度對自然語言處理進行研究，可解釋性包括面向模型可解釋性和任務可解釋性。面向模型的可解釋性可以從認知角度、語言學角度看模型編碼了哪些語言學特徵，人類神經機理有什麼相似程度；任務角度可以給定一個任務例如抽取式摘要、命名實體識別，研究模型的組成部分，瞭解不同設置下模型各自適應場景是什麼，掌握怎麼樣進一步提高現有模型有效方向等。

（整理人：張雪豐）

AI未來說*青年學術論壇