復旦大學桂韜：Uncertainty—Aware Sequence Labeling

不到現場，照樣看最乾貨的學術報告！

嗨，大家好。這裏是學術報告專欄，讀芯術小編不定期挑選並親自跑會，爲大家奉獻科技領域最優秀的學術報告，爲同學們記錄報告乾貨，並想方設法搞到一手的PPT和現場視頻——足夠乾貨，足夠新鮮！話不多說，快快看過來，希望這些優秀的青年學者、專家傑青的學術報告，能讓您在業餘時間的知識閱讀更有價值。

人工智能論壇如今浩如煙海，有硬貨、有乾貨的講座卻百裏挑一。“AI未來說·青年學術論壇”系列講座由中國科學院大學主辦，百度全力支持，讀芯術、paperweekly作爲合作自媒體。承辦單位爲中國科學院大學學生會，協辦單位爲中國科學院計算所研究生會、網絡中心研究生會、人工智能學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年6月20日，第16期“AI未來說·青年學術論壇”NLP前沿技術及產業化線上專場論壇以“線上平臺直播+微信社羣圖文直播”形式舉行。復旦大學桂韜帶來報告《Uncertainty—Aware Sequence Labeling》。

復旦大學桂韜的報告視頻

桂韜，復旦大學自然語言處理實驗室博士生，導師爲張奇和黃萱菁教授。

報告內容：桂韜在本次報告中主要分享了他近期在文本序列標註方面的工作。

Uncertainty—Aware Sequence Labeling

首先，桂韜介紹了問題的背景。序列標註是比較廣泛的任務，它包括分詞、詞性標註、命名實體識別等子任務，大致形式是通過輸入一段文本，給文本中每個單詞賦予相應的語言學的標籤。目前序列標註的流程一般分成兩步，第一步是通過編碼層將相應輸入文本編碼爲有效的上下文表示，第二步再通過標籤解碼層對相應單詞對應標籤進行解碼。

在文本編碼的時候，可以根據實際任務需求設計不同的模型。比如對於NER的任務，每個單詞字符組成結構可能有比較大的作用，所以提出基於字符結構循環神經網絡建模上下文。循環神經網絡速度比較慢，所以有人把卷積神經網絡引入文本建模，從而提高速度。近期比較火的預訓練模型可以將大量無標註語料知識引入編碼文本。

而對於標籤解碼，由於序列標籤之間有着非常強的相互依賴關係，比如說名詞後面很可能接動詞，不太可能接冠詞，多文檔之間標籤間有標籤間共有關係，所以建模標籤長距離依賴對標籤解碼顯得非常重要。

目前標籤解碼的研究比較少，一般常用做法一是利用Softmax直接將文本每一個單詞映射相應標籤上，第二種利用CRF建模標籤轉移矩陣，建立標籤之間相互依賴關係。最近一些工作利用神經網絡，利用seq2seq的框架來建模標籤長距離依賴關係。

接下來，桂韜分析了不同標籤解碼方式的優缺點。

第一種是利用Softmax，它的明顯優勢是可以實現並行解碼，但很大缺點是每個單詞得到標籤是相互獨立的，沒有建模標籤與標籤的依賴關係，導致性能不高；第二種是利用CRF，建模標籤間轉移矩陣，通過轉移矩陣構建整個句子解碼時的最大句子得分，這種方式能夠建模相鄰標籤依賴關係，但同時需要依賴維特比解碼方式，解碼速度比較慢；第三利用神經網絡seq2seq，生成一部分標籤，預測當前標籤時通過LSTM建模之前標籤生成當前標籤，這樣生成標籤實際上建模了當前標籤依賴關係，所以具有長距離的標籤依賴。但解碼仍然需要串行解碼，無法並行，同時會帶來錯誤傳播問題，如果一個標籤預測錯，很可能導致後面標籤一直錯。

因此，在並行解碼與建立長距離依賴間似乎存在矛盾，桂韜試圖尋找兩者的結合點。這就是這項工作的出發點。

要解決這個問題，一個非常直觀的想法是採用兩步框架。首先用Softmax生成草稿標籤，之後用Transformer建立標籤與標籤依賴關係，對之前生成草稿標籤進行修正。因爲Softmax和Transformer都是並行的，它可以實現整體的並行解碼，而Transformer也可以通過草稿標籤建模標籤與標籤長距離依賴。

但在實驗中，桂韜發現了一個棘手問題：Transformer在第二步對草稿標籤進行修正時，很有可能將正確標籤改錯。如在CoNLL2003數據集上進行的測試，發現利用兩步框架時，第一步的草稿標籤會有39個會改錯，54個被改對。所以在這種框架下無法避免正確的標籤被改錯的情況，所以現在要尋找一個indicator，能否第二步修正只修正可能錯的標籤，正確標籤保護起來不要修正。

繼續通過實驗，桂韜發現通過Bayesian神經網絡估計模型不確定性，可以非常好地指示哪些草稿標籤可能是錯的、哪些可能是對的。在CoNLL2003上的測試集上，他發現當草稿標籤預測正確的時候，它的平均不確定性是0.018，如果草稿標籤預測錯了，那麼它的不確定性超過0.5，錯誤標籤不確定性是正確標籤不確定性的29倍。因此，可以設計閾值，保護預測正確標籤，只修正不確定性非常大、很可能會錯誤的標籤，這樣可以實現並行解碼同時儘量不將正確標籤改錯。

接下來，桂韜簡要介紹了Bayeasian神經網絡的基本思想。對於常見的深度學習神經網絡，整個模型參數是確定值，得到標籤也是確定的。而Bayeasian神經網絡的模型參數不再是確定值，而是一個個分佈，也就是模型參數是變量，最終模型參數值通過分佈得到，這樣模型輸出標籤也是一個分佈，可以通過標籤分佈得到整個模型的不確定性。

這裏一個大的困難是估計參數分佈，因爲數據集的真實參數分佈是不清楚的，爲了計算方便可以使用簡單的先驗分佈來逼近真實分佈。具體方法可以採用變分推斷，通過最小化假設某種分佈，與真正模型參數分佈KL散度來估計。這裏爲了不增加參數量，通過Bernoulli分佈逼近參數分佈。因爲Bernoulli分佈是0和1採樣，所以只要採用Dropout就可以得到Bernoulli分佈。對優化參數得到採樣，假設採樣t次，可以得到逼近參數分佈，然後再對模型標籤預測，因爲採樣次數越多，對模型真正後驗逼近越準確，通過最終輸出模型標籤預測分佈去計算熵，可以得到不確定性。

之後，桂韜介紹了他所提出的具體模型架構。他將LSTM引入Bayeasian框架，作爲第一步生成草稿標籤的解碼器，並且伴隨得到模型不確定性。這裏再設置一個不確定性閾值的超參數，大於閾值的標籤很有可能是錯誤的，讓這部分草稿標籤進入Transformer層進行修正。

最後，桂韜介紹了一些實驗結果。

首先在命名實體識別和序列標註做了測試，模型性能比CRF、Softmax、seq2seq結果好很多。因爲這篇工作主要關於標籤解碼問題，實際上和文本編碼方式不太相關，所以可以用各種複雜文本編碼方式建模文本，再用此方式對標籤進行解碼。同時對解碼速度進行了測試，發現該模型相比其他模型明顯快。另外對不確定性閾值設置進行了實驗。隨着不確定性閾值增大，模型逐漸知道怎麼選擇修正標籤，並達到非常好的效果，而隨着不確定性的閾值繼續增大，實際上模型會完全選擇草稿標籤，這樣的話性能又會下降。

由於該框架可以建模非常長文本標籤依賴，所以可以擴展到篇章級別的命名實體識別。例如文章開頭有人名，而在中間人名只給了名沒有給姓，可能模型單憑句子很難知道是人名，此時可以利用Transformer方式關注到前面的標籤，給它做修正，唯一要改正的地方只需要加一個Memory框架，把之前預測標籤存起來，可以用Transformer進行查詢。