總結 | 清華大學韓旭:神經關係抽取模型

AI 科技評論按:關係抽取是自然語言處理中的重要任務,也是從文本中挖掘知識的基本途徑之一。深度學習在關係抽取中的研究在近幾年取得了廣泛關注,其中基於遠距離監督、帶有注意力機制的神經網絡模型成爲解決問題的主要方法。在本次公開課中,講者將梳理神經模型在關係抽取中的發展脈絡,並分享相關領域的最新工作進展。

分享嘉賓:

韓旭,清華大學計算機系在讀博士,導師是劉知遠副教授,主要研究方向爲自然語言處理,知識獲取等。其研究工作曾在 AAAI、COLING、EMNLP 等發表。

公開課回放地址: http://www.mooc.ai/open/course/548?=Leiphone

分享主題:神經關係抽取模型

分享提綱:

  • 深度學習在關係抽取上的發展脈絡。
  • 基於注意力機制的神經關係抽取模型的剖析。
  • 相關領域的最新工作進展的介紹。

雷鋒網 AI研習社將其分享內容整理如下:

今天主要講關係抽取領域的神經模型的發展近況,首先,給大家科普一下背景知識。

關係抽取屬於信息抽取領域的子任務,主要的功能是讓機器從一句話中抽出給定實體,並釐清相應關係,主要用於拓展知識圖譜,把無結構的自由文本變成結構化數據。

在傳統任務當中,我們會把關係抽取當作分類過濾器,先人爲定義好關係,接着輸入標註好實體的文本,然後判斷文本屬於定義關係中的哪一類。在某種程度上我們可以認爲這是一個有監督的分類問題。

到了 2013 年,神經網絡模型被運用到關係抽取領域裏,也就是將句子作爲特徵放到神經網絡裏,通過神經網絡習得特徵來做分類。

這些模型存在一個問題,那就是需要大量的高質量數據和人力投入,代價較高,因此在推廣上面臨困難。

爲了解決這個問題,遠程監督的概念應運而生,它引入了這麼一個假設:兩個實體如果在外部的知識圖譜中存在關係,那麼包含該實體的句子就是圖譜中的對應關係。通過這種啓發式的方法,機器可以自動標註許多數據,再用於訓練分類器做關係抽取。

遠程監督的優勢在於無需人工操作,且能普適大規模數據,然而卻面臨着噪音問題。

怎麼解決這個噪音問題呢?

第一個方法是引入多實例學習,將所有包含同樣實體的句子放到一個包(bag)裏,在有需要時對包裏的句子進行特徵提取,進而預測實體之間的關係。

2015 年的一項工作把遠程監督與多實例學習結合起來,從那時開始,關係抽取領域的關鍵模型基本上都由遠程監督+多實例學習+神經網絡組成。

注意力機制模型

這是我們實驗室一個學長在 2016 年開展的一項工作,主要針對多實例學習中存在的噪音問題,通過引入注意力機制給包(bag)下的句子賦予權重,有效增強預測效果。

【更多關於注意力機制模型的運作原理,請回看視頻 00:16:53 處,http://www.mooc.ai/open/course/548?=Leiphone】

從實驗結果上看,添加注意力機制確實可以有效提升模型的效果。(黑線爲增加了注意力機制的模型)

從 2016 年開始,關係抽取領域的關鍵模型在原來的遠程監督+多實例學習+神經網絡模型基礎上,再增加一個注意力機制。

拓展模型

一、 引入實體的描述信息來構建注意力機制

該工作將句子中的實體與對應的描述文本的詞向量進行處理後得到兩個特徵,接着對兩個特徵做減法獲得潛在關係,最後把潛在關係作爲注意力機制的向量。

二、 引入軟標註機制

爲了解決錯誤標註的問題,該工作給每個關係設置一個置信度,訓練的過程中一旦發現預測的關係與原來標註的不一致,且置信度比原來的要高的話,就會默認原來的標註存在問題,並以新的預測關係進行替代。

三、 引入對抗訓練

通過刻意給句子製造噪音,無形中增強模型的抗噪能力。

四、 抽取多個實體之間的關係

針對一大段文本中的多對實體進行關係抽取。這是業界未來一個可能的研究熱點,因爲和我們人類日常的認知機制比較接近。

五、 融入知識表示模型

將知識圖譜模型與關係抽取模型放在一塊做聯合訓練,進而作爲注意力機制起降噪作用。在這過程中,文本還可協助圖譜進行完善和校正。

六、 融入知識圖譜的結構信息

通過引入知識圖譜的關係層次結構(主副關係等),構建一個從粗粒度到細粒度的注意力機制特徵。

七、 跨語言關係的抽取

該工作的核心思路在於利用不同語言之間的注意力機制,給彼此的文本做跨語言的權衡計算。跨語言關係抽取的好處在於,可以有效利用語言之間的互補性,比如中文裏較少的關係特徵數據,可用英文數據來進行補充。

八、 跨語言關係的抽取(升級版)

通過設立單獨語義空間和跨語言統一空間,並引入對抗訓練,優化最終跨語言關係的提取效果。

九、 基於 few-shot learning 的研究場景

爲了解決遠距離監督的長尾數據問題,該工作通過構建一個人工標註的少樣本數據集,讓機器可以通過較少的樣例進行學習推理。不過該工作目前更多應用在圖像領域,自然語言領域有較大的發展空間。

最後給大家推薦一些相關資源。

前三項是我們組發完論文後的一些模型實現,後兩項則是一些零零散散的工作開源代碼。

我今天的分享就到此爲止,謝謝大家!

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網AI研習社社區(https://club.leiphone.com/)觀看。關注微信公衆號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章