復旦大學桂韜:Uncertainty—Aware Sequence Labeling

不到現場,照樣看最乾貨的學術報告!

嗨,大家好。這裏是學術報告專欄,讀芯術小編不定期挑選並親自跑會,爲大家奉獻科技領域最優秀的學術報告,爲同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。


人工智能論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裏挑一。“AI未來說·青年學術論壇”系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作爲合作自媒體。承辦單位爲中國科學院大學學生會,協辦單位爲中國科學院計算所研究生會、網絡中心研究生會、人工智能學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年6月20日,第16期“AI未來說·青年學術論壇”NLP前沿技術及產業化線上專場論壇以“線上平臺直播+微信社羣圖文直播”形式舉行。復旦大學桂韜帶來報告《Uncertainty—Aware Sequence Labeling》。

復旦大學桂韜的報告視頻

桂韜,復旦大學自然語言處理實驗室博士生,導師爲張奇和黃萱菁教授。

報告內容:桂韜在本次報告中主要分享了他近期在文本序列標註方面的工作。

Uncertainty—Aware Sequence Labeling

首先,桂韜介紹了問題的背景。序列標註是比較廣泛的任務,它包括分詞、詞性標註、命名實體識別等子任務,大致形式是通過輸入一段文本,給文本中每個單詞賦予相應的語言學的標籤。目前序列標註的流程一般分成兩步,第一步是通過編碼層將相應輸入文本編碼爲有效的上下文表示,第二步再通過標籤解碼層對相應單詞對應標籤進行解碼。

在文本編碼的時候,可以根據實際任務需求設計不同的模型。比如對於NER的任務,每個單詞字符組成結構可能有比較大的作用,所以提出基於字符結構循環神經網絡建模上下文。循環神經網絡速度比較慢,所以有人把卷積神經網絡引入文本建模,從而提高速度。近期比較火的預訓練模型可以將大量無標註語料知識引入編碼文本。

而對於標籤解碼,由於序列標籤之間有着非常強的相互依賴關係,比如說名詞後面很可能接動詞,不太可能接冠詞,多文檔之間標籤間有標籤間共有關係,所以建模標籤長距離依賴對標籤解碼顯得非常重要。

目前標籤解碼的研究比較少,一般常用做法一是利用Softmax直接將文本每一個單詞映射相應標籤上,第二種利用CRF建模標籤轉移矩陣,建立標籤之間相互依賴關係。最近一些工作利用神經網絡,利用seq2seq的框架來建模標籤長距離依賴關係。

接下來,桂韜分析了不同標籤解碼方式的優缺點。

第一種是利用Softmax,它的明顯優勢是可以實現並行解碼,但很大缺點是每個單詞得到標籤是相互獨立的,沒有建模標籤與標籤的依賴關係,導致性能不高;第二種是利用CRF,建模標籤間轉移矩陣,通過轉移矩陣構建整個句子解碼時的最大句子得分,這種方式能夠建模相鄰標籤依賴關係,但同時需要依賴維特比解碼方式,解碼速度比較慢;第三利用神經網絡seq2seq,生成一部分標籤,預測當前標籤時通過LSTM建模之前標籤生成當前標籤,這樣生成標籤實際上建模了當前標籤依賴關係,所以具有長距離的標籤依賴。但解碼仍然需要串行解碼,無法並行,同時會帶來錯誤傳播問題,如果一個標籤預測錯,很可能導致後面標籤一直錯。

因此,在並行解碼與建立長距離依賴間似乎存在矛盾,桂韜試圖尋找兩者的結合點。這就是這項工作的出發點。

要解決這個問題,一個非常直觀的想法是採用兩步框架。首先用Softmax生成草稿標籤,之後用Transformer建立標籤與標籤依賴關係,對之前生成草稿標籤進行修正。因爲Softmax和Transformer都是並行的,它可以實現整體的並行解碼,而Transformer也可以通過草稿標籤建模標籤與標籤長距離依賴。

但在實驗中,桂韜發現了一個棘手問題:Transformer在第二步對草稿標籤進行修正時,很有可能將正確標籤改錯。如在CoNLL2003數據集上進行的測試,發現利用兩步框架時,第一步的草稿標籤會有39個會改錯,54個被改對。所以在這種框架下無法避免正確的標籤被改錯的情況,所以現在要尋找一個indicator,能否第二步修正只修正可能錯的標籤,正確標籤保護起來不要修正。

繼續通過實驗,桂韜發現通過Bayesian神經網絡估計模型不確定性,可以非常好地指示哪些草稿標籤可能是錯的、哪些可能是對的。在CoNLL2003上的測試集上,他發現當草稿標籤預測正確的時候,它的平均不確定性是0.018,如果草稿標籤預測錯了,那麼它的不確定性超過0.5,錯誤標籤不確定性是正確標籤不確定性的29倍。因此,可以設計閾值,保護預測正確標籤,只修正不確定性非常大、很可能會錯誤的標籤,這樣可以實現並行解碼同時儘量不將正確標籤改錯。

接下來,桂韜簡要介紹了Bayeasian神經網絡的基本思想。對於常見的深度學習神經網絡,整個模型參數是確定值,得到標籤也是確定的。而Bayeasian神經網絡的模型參數不再是確定值,而是一個個分佈,也就是模型參數是變量,最終模型參數值通過分佈得到,這樣模型輸出標籤也是一個分佈,可以通過標籤分佈得到整個模型的不確定性。

這裏一個大的困難是估計參數分佈,因爲數據集的真實參數分佈是不清楚的,爲了計算方便可以使用簡單的先驗分佈來逼近真實分佈。具體方法可以採用變分推斷,通過最小化假設某種分佈,與真正模型參數分佈KL散度來估計。這裏爲了不增加參數量,通過Bernoulli分佈逼近參數分佈。因爲Bernoulli分佈是0和1採樣,所以只要採用Dropout就可以得到Bernoulli分佈。對優化參數得到採樣,假設採樣t次,可以得到逼近參數分佈,然後再對模型標籤預測,因爲採樣次數越多,對模型真正後驗逼近越準確,通過最終輸出模型標籤預測分佈去計算熵,可以得到不確定性。

之後,桂韜介紹了他所提出的具體模型架構。他將LSTM引入Bayeasian框架,作爲第一步生成草稿標籤的解碼器,並且伴隨得到模型不確定性。這裏再設置一個不確定性閾值的超參數,大於閾值的標籤很有可能是錯誤的,讓這部分草稿標籤進入Transformer層進行修正。

最後,桂韜介紹了一些實驗結果。

首先在命名實體識別和序列標註做了測試,模型性能比CRF、Softmax、seq2seq結果好很多。因爲這篇工作主要關於標籤解碼問題,實際上和文本編碼方式不太相關,所以可以用各種複雜文本編碼方式建模文本,再用此方式對標籤進行解碼。同時對解碼速度進行了測試,發現該模型相比其他模型明顯快。另外對不確定性閾值設置進行了實驗。隨着不確定性閾值增大,模型逐漸知道怎麼選擇修正標籤,並達到非常好的效果,而隨着不確定性的閾值繼續增大,實際上模型會完全選擇草稿標籤,這樣的話性能又會下降。

由於該框架可以建模非常長文本標籤依賴,所以可以擴展到篇章級別的命名實體識別。例如文章開頭有人名,而在中間人名只給了名沒有給姓,可能模型單憑句子很難知道是人名,此時可以利用Transformer方式關注到前面的標籤,給它做修正,唯一要改正的地方只需要加一個Memory框架,把之前預測標籤存起來,可以用Transformer進行查詢。

桂韜也做了一個簡單實驗來驗證想法,測試合適的memory size。發現只要存一個類似單詞標籤,通過框架可以得到明顯性能提升,如果存的更多可能性能會再有進一步提升,但比較緩慢。

(整理人:江洲鈺)

AI未來說*青年學術論壇

第一期 數據挖掘專場

1. 李國傑院士:理性認識人工智能的“頭雁”作用

2. 百度熊輝教授:大數據智能化人才管理

3. 清華唐傑教授:網絡表示學習理論及應用

4. 瑞萊智慧劉強博士:深度學習時代的個性化推薦

5. 清華柴成亮博士:基於人機協作的數據管理

第二期 自然語言處理專場

1. 中科院張家俊:面向自然語言生成的同步雙向推斷模型

2. 北郵李蕾:關於自動文本摘要的分析與討論

3. 百度孫珂:對話技術的產業化應用與問題探討

4. 阿里譚繼偉:基於序列到序列模型的文本摘要及淘寶的實踐

5. 哈工大劉一佳:通過句法分析看上下文相關詞向量

第三期 計算機視覺專場

1. 北大彭宇新:跨媒體智能分析與應用

2. 清華魯繼文:深度強化學習與視覺內容理解

3. 百度李穎超:百度增強現實技術及應⽤

4. 中科院張士峯:基於深度學習的通用物體檢測算法對比探索

5. 港中文李弘揚 :物體檢測最新進展

第四期 語音技術專場

1. 中科院陶建華:語音技術現狀與未來

2. 清華大學吳及:音頻信號的深度學習處理方法

3. 小米王育軍:小愛背後的小米語音技術

4. 百度康永國:AI 時代的百度語音技術

5. 中科院劉斌:基於聯合對抗增強訓練的魯棒性端到端語音識別

第五期 量子計算專場

1. 清華大學翟薈:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大學魯大爲:量子計算與人工智能的碰撞

3. 荷蘭國家數學和計算機科學中心(CWI)李繹楠:大數據時代下的量子計算

4. 蘇黎世聯邦理工學院(ETH)楊宇翔:量子精密測量

5. 百度段潤堯:量子架構——機遇與挑戰

第六期 機器學習專場

1. 中科院張文生:健康醫療大數據時代的認知計算

2. 中科院莊福振:基於知識共享的機器學習算法研究及應用

3. 百度胡曉光:飛槳(PaddlePaddle)核心技術與應用實踐

4. 清華大學王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大學趙申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自動駕駛專場

1. 北京大學查紅彬:基於數據流處理的SLAM技術

2. 清華大學鄧志東:自動駕駛的“感”與“知” - 挑戰與機遇

3. 百度朱帆:開放時代的自動駕駛 - 百度Apollo計劃

4. 北理宋文傑:時空域下智能車輛未知區域自主導航技術

第八期 深度學習專場

1. 中科院文新:深度學習入門基礎與學習資源

2. 中科院陳智能:計算機視覺經典——深度學習與目標檢測

3. 中科院付鵬:深度學習與機器閱讀

第九期 個性化內容推薦專場

1. 人民大學趙鑫:基於知識與推理的序列化推薦技術研究

2. 中科院趙軍:知識圖譜關鍵技術及其在推薦系統中的應用

第十期 視頻理解與推薦專場

1. 北京大學袁曉如:智能數據可視分析

第十一期 信息檢索與知識圖譜專場

1. 北京郵電大學邵鎣俠:知識圖譜高效嵌入方法

2. 人民大學徐君:智能搜索中的排序-突破概率排序準則

3. 百度周景博:POI知識圖譜的構建及應用

4. 百度宋勳超:百度大規模知識圖譜構建及智能應用

5. 百度馮知凡:基於知識圖譜的多模認知技術及智能應用

第十二期 年度特別專場

1. 復旦大學桂韜:當NLP邂逅Social Media--構建計算機與網絡語言的橋樑

2. 清華大學董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC羅宇男:AI-assisted Scientific Discovery

4. 斯坦福應智韜:Graph Neural Network Applications

第十三期 AI助力疫情攻關線上專場

1. 清華大學吳及:信息技術助力新冠防控

2. 北京大學王亞沙:新冠肺炎傳播預測模型

3. 百度黃際洲:時空大數據與AI助力抗擊疫情——百度地圖的實踐與思考

4. 百度張傳明:疫情下的“活”導航是如何煉成的

第十四期 深度學習線上專場

1. 中國科學院徐俊剛:自動深度學習解讀

2. 北航孫鈺:昆蟲目標檢測技術

3. 百度尤曉赫:EasyDL,加速企業AI轉型

4. 百度鄧凱鵬:飛槳視覺技術解析與應用

第十五期 大數據線上專場

1. 復旦趙衛東:大數據的系統觀

2. 中科大徐童:AI×Talent數據驅動的智能人才計算

3. 百度李偉彬:基於PGL的圖神經網絡基線系統

4. 中科大張樂:基於人才流動表徵的企業競爭力分析


推薦閱讀專題


留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

推薦文章閱讀

ACL2018論文集50篇解讀

EMNLP2017論文集28篇論文解讀

2018年AI三大頂會中國學術成果全鏈接

ACL2017 論文集:34篇解讀乾貨全在這裏

10篇AAAI2017經典論文回顧

長按識別二維碼可添加關注

讀芯君愛你

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章