實體關係抽取的現狀與未來

Abstract

來到 2019 年的今天,深度學習的諸多侷限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到 精細深度的語義理解,單純依靠 數據標註算力投入無法解決本質問題。如果沒有先驗知識的支持,「中國的乒乓球誰都打不過」與「中國的足球誰都打不過」,在計算機看來語義上並沒有巨大差異,而實際上兩句中的「打不過」意思正好相反。因此,融入知識來進行知識指導的自然語言處理,是通向精細而深度的語言理解的必由之路。然而,這些知識又從哪裏來呢?這就涉及到人工智能的一個關鍵研究問題——知識獲取

實體關係抽取是一個經典任務,在過去的 20 多年裏都有持續研究開展,特徵工程、核方法、圖模型曾被廣泛應用其中,取得了一些階段性的成果。隨着深度學習時代來臨,神經網絡模型則爲實體關係抽取帶來了新的突破。

語法分析和語義分析

語法分析在詞法分析輸出單詞流基礎上,根據語言的語法規則注意分析這些單詞流怎麼組成句子,並說明句子是怎樣組成程序,並能進行語法檢查,而語義分析是根據語法結構分析其含義。

能理解成語法分析是從詞中找出句子,而語義分析是在句子的基礎上進行理解,並斷句。

語法分析的任務是判斷源程序在結構上是否正確,是上下文無關的;
語義分析的任務是判斷結構正確的源程序所表達的意義(這樣說可能不太準確)是否正確,是上下文有關的。

  • 語法分析:檢查句子的“主謂賓”結構
  • 語義分析:檢查你說話的意思。 參考這裏

一種語言是合法句子的集合。什麼樣的句子是合法的呢?可以從兩方面來判斷:語法和語。語法是和文法結構有關,然而語義是和按照這個結構所組合的單詞符號的意義有關。合理的語法結構並不表明語義是合法的。例如我們常說:我上大學,這個句子是符合語法規則的,也符合語義規則。但是大學上我,雖然符合語法規則,但沒有什麼意義,所以說是不符合語義的。 參考這裏

語法 包括 詞法 和 句法。

  • 詞法主要研究詞的內部結構,包括曲折變化和構詞法。也有人說,morphology(形態學)又稱詞法。
  • 句法研究句子結構成分的相關關係,以及它們組成句子的規則。

SemEval-2010 Task-8

SemEval-2010 Task-8的任務設定爲,對預先定義好的關係類別標註大量的訓練和測試樣例,樣例都是相對簡單的短句,而且每種關係的樣例分佈也比較均勻。然而,實際應用中往往面臨很多挑戰:

  • 數據規模問題:人工精準地標註句子級別的數據代價十分高昂,需要耗費大量的時間和人力。在實際場景中,面向數以千計的關係、數以千萬計的實體對、以及數以億計的句子,依靠人工標註訓練數據幾乎是不可能完成的任務。
  • 學習能力問題:在實際情況下,實體間關係和實體對的出現頻率往往服從長尾分佈,存在大量的樣例較少的關係或實體對。神經網絡模型的效果需要依賴大規模標註數據來保證,存在”舉十反一“的問題。如何提高深度模型的學習能力,實現”舉一反三“,是關係抽取需要解決的問題。
  • 複雜語境問題。現有模型主要從單個句子中抽取實體間關係,要求句子必須同時包含兩個實體。實際上,大量的實體間關係往往表現在一篇文檔的多個句子中,甚至在多個文檔中。如何在更復雜的語境下進行關係抽取,也是關係抽取面臨的問題。
  • 開放關係問題。現有任務設定一般假設有預先定義好的封閉關係集合,將任務轉換爲關係分類問題。這樣的話,文本中蘊含的實體間的新型關係無法被有效獲取。如何利用深度學習模型自動發現實體間的新型關係,實現開放關係抽取,仍然是一個”開放“問題。
    所以說,SemEval-2010 Task-8這樣的理想設定與實際場景存在巨大鴻溝,僅依靠神經網絡提取單句語義特徵,難以應對關係抽取的各種複雜需求和挑戰。我們亟需探索更新穎的關係抽取框架,獲取更大規模的訓練數據,具備更高效的學習能力,善於理解複雜的文檔級語境信息,並能方便地擴展至開放關係抽取。

我們認爲,這四個方面構成了實體關係抽取需要進一步探索的主要方向。接下來,我們分別介紹這四個方面的發展現狀和挑戰,以及我們的一些思考和努力。

更大規模的訓練數據

神經網絡關係抽取需要大量的訓練數據,但是人工標註這些訓練數據非常費時昂貴。爲了自動獲取更多的訓練數據訓練模型,工作 [16] 提出了遠程監督(Distant Supervision)的思想,將純文本與現有知識圖譜進行對齊,能夠自動標註大規模訓練數據。

雖然遠程監督思想非常簡單也存在很多問題,不過它爲更多收集訓練數據開啓了新的紀元。受到這個思路的啓發,很多學者積極考慮如何儘可能排除遠程監督數據中的噪音標註的干擾。從2015年開始,基於遠程監督與降噪機制的神經關係抽取模型得到了長足的發展,工作 [17] 引入了多實例學習方法,利用包含同一實體對的所有實例來共同預測實體間關係。我們課題組林衍凱等人工作 [19] 提出句子級別注意力機制,對不同的實例賦予不同的權重,用以降低噪音實例造成的影響。工作 [20] 引入對抗訓練來提升模型對噪音數據的抵抗能力。工作 [21] 則構建了一套強化學習機制來篩除噪音數據,並利用剩餘的數據來訓練模型。

總結來說,已有對遠程監督的降噪方法可以兼顧了關係抽取的魯棒性與有效性,也具有較強的可操作性和實用性。不過,使用已有知識圖譜對齊文本來獲取數據訓練關係抽取模型,再利用該模型來抽取知識加入知識圖譜,本身就有一種雞生蛋與蛋生雞的味道。不完善的知識圖譜對齊所得到的文本訓練數據也將是不完善的,對那些長尾知識而言,仍難以通過這種遠程監督機制來得到訓練實例。如何提出更有效的機制來高效獲取高質量、高覆蓋、高平衡的訓練數據,仍然是一個值得深入思考的問題

Reference

thunlp

發佈了159 篇原創文章 · 獲贊 27 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章