NLP論文翻譯——《Chinese Event Extraction With Inadequate Data》

這是一篇可能不出名,但是很實用的事件抽取論文,也很契合笨妞當下的使用。原文來自於這裏,代碼也比較好用。以下是翻譯記錄。

********************************************分割線***********************************************

一、概述

事件抽取是文本挖掘的一種常見應用,它提取句子甚至是通道的主要特徵。我們的實驗主要集中在從獨立的句子中提取漢語事件。雖然事件抽取技術相對成熟,但大多數技術都需要一個大的標記語料庫。然而,在實際問題中,人工生成大量的訓練數據和每種訓練數據都是困難的。在實驗中,我們測試了漢語中約2000句事件抽取方法的性能,並針對數據不足的漢語事件抽取問題提出了一些解決方案。

二、基本介紹

事件提取被分爲數據驅動的事件提取和知識驅動的事件提取,這使得一些技術組合了數據和知識信息。由於語言模式的限制,知識驅動的事件提取確實能夠減少大尺寸數據的需求, 但它很難處理語法不同的各種語言語料庫。 此外,一些常用語的用法也可能與語法矛盾。 考慮到這些問題,數據驅動的事件提取在漢語事件提取中可能是一個更靈活的選擇,因爲漢語的語言模式與英語完全不同。
不幸的是,當無法得到一個帶有任何主題的大標記語料庫時,這可能會使傳統的數據驅動事件抽取在數據不足的情況下不能很好地工作:在訓練時模型通常在如此小的語料庫過度匹配,即使是樸素貝葉斯在某些情況下也表現最好。
我們對不同類型的數據驅動事件抽取技術的性能進行了深入的評價,分析了每種方法的優缺點,並針對訓練數據的不足提出了一些解決方案。
首先,爲了提高模型的泛化能力,針對訓練數據的不足,選擇合適的平滑方法是非常重要的。
第二,雖然很難得到一個大的標註語料庫,但可以獲得一個龐大的詞彙詞典,它可以爲我們提供詞性部分(Pos),而pos信息也可以幫助我們的模型的性能。
第三,當我們處理未見數據時,插值作爲一種補充,pos信息在插值中起着重要的作用。

三、理論基礎

A.隱馬爾可夫模型[2]

假設oi和hi是觀察節點和隱藏節點。
隱馬爾可夫模型是一種動態貝葉斯網絡,它假定了觀測節點和隱節點之間的依賴關係。

從訓練數據中可以估計出發射概率p(OJ JHI)和躍遷概率p(HJ JHI),從而構造出整個參數空間。
當我們從觀測結果中預測隱藏鏈時,我們可以使用最大似然估計器:


B.條件隨機場[2]

基於上述,隱馬爾可夫模型主要關注後向隱節點和相應的觀察節點,但這種依賴假設過於簡單,難以描述句子信息,因此需要考慮建立隱鏈與觀察節點之間的關係:

從方程(4)中我們發現,與HMM相比,參數的推理過程是相反的,在機器學習中,觀察鏈和後向節點成爲隱藏節點的特徵,而後向節點也不知道,而且由於概率設置,條件隨機場採用對數線性模型,從而可以得到每個隱藏節點的概率,然後從上面導出損失函數:

其中,我是模型的特徵提取器,z(H)是規範化的。在這種情況下,我們可以學習參數!,CRF使用L-bgfs來最小化損失函數,然後返回優化的!

C.平滑和泛化能力[3]
由於數據不充分,訓練數據中的詞彙集可能無法覆蓋測試數據中的某個詞,從而導致發射矩陣中的概率爲零,並導致一些錯誤(零點的轉換使正向概率都爲零,logp溢出),需要考慮到我們的發射矩陣的光滑性,插值是平滑概率分佈的理想方法,除了樸素Bayes項外,還需要考慮。另一個問題是,過渡矩陣過於粗糙,如從“o”到“o”的過渡量太大,以至於當事件-詞彙量不夠時,隱藏的鏈可能全部收斂到“o”,這就提出了懲罰這類過渡的可能性的想法。

此外,爲了避免概率矩陣中的零點,拉普拉斯平滑似乎是一個合理的選擇,但是,拉普拉斯平滑的參數應該謹慎選擇,這將在下一節中介紹。

D.事件提取中還有什麼?

  1. 觸發器:在一個簡單的句子中,只有一個觸發器,這可能是隱藏鏈的限制。 例如,HMM中的概率可以被編輯爲:

其中h1=‘O’;HK是唯一不等於‘O’的組件。

  1. 參數:句子中的參數可能比觸發器更難預測,因爲參數數目不固定,增加了預測的複雜性。我們在動態Bayes網絡中選擇了HMM模型中的Viterbi算法,簡單地說,當狀態具有馬爾可夫條件時,全局最短路徑構成一組局部最短路徑,從而構造局部最短路徑。然後通過反向計算得到全局最短路徑,這意味着不需要計算全局視圖中的所有組合。由於頁面的限制,而Viterbi算法的細節不是我們所關注的,因此我們跳過了這一部分。

  1. 詞性部分:獲取特定詞的詞表並不困難,因爲任何語言都有不同的詞典,所以當我們沒有足夠的標記數據進行事件抽取時,就可以從字典中獲取信息。由於字典類型的限制,我們只嘗試在實驗中添加pos信息,從而提高了模型的性能。

四、結果分析

A. 基線模型

雖然我們有幾種類型的方法,它們都是基於貝葉斯規則和一些條件假設,這意味着樸素貝葉斯方法可以是上面任何方法的基線,每個結果比基線擬合差。

B. HMM

當我們使用HMM方法時,自然會對過擬合的風險持謹慎態度,然而,雖然我們使用添加epsilon來維護排放矩陣中的信息,但結果也不令人滿意,甚至比基線結果還要糟糕,因此我們首先在HMM中加入樸素Bayes插值項,這可以增加模型的泛化能力。
在HMM中加入樸素Bayes插值項,參數的結果有了很大的提高,一般結果優於HMM和樸素Bayes,證明了插值和HMM的有效性。
此外,當我們在模型中加入pos項時,觸發結果f1評分可以明顯提高,這可能是觸發詞和動詞之間對應的結果,對於參數,f1得分類型和校正結果的平衡可以通過新的插值得到更好的結果。(2)從圖2中可以發現pos類型和觸發器比pos類型和參數更相關,這可以幫助我們獲得更好的結果。闡述了採用PoS插值方法進行模型改進的原因。不幸的是,當我們提高F1評分時,爭取的類型卻減少了,因爲pos信息不能提供類型,在我們的設置中,當句子中只有一個動詞時,模型只會附加一個“t運動”,這是這樣的狀語。事實上,如果我們有更多信息的字典,情況可能會更好。


註釋:爲什麼Laplace平滑不起作用,什麼時候起作用:在我們的實驗中,發射矩陣中的“加1”光滑使得結果非常糟糕:輸出可能收斂於所有‘o’類型。因此,我們使用的加法比1小得多(0.1或更小),這是因爲訓練數據的大小不夠大,“1”拉普拉斯的平滑可能是如此之大,例如,如果(‘Run’),)只出現一次,當添加1時,p(‘run’,‘o’)可以是p(‘run’,‘t motions’)/2,而(‘o’,‘o’)的轉換比(‘o’,‘o’)大得多,)。因此,在數據設置不足的情況下,應該用Add-epsilon替換Add-one光滑,這樣可以保持原始估計的分佈。(3)根據圖(3),當我們在s中使用傳統的加載項時,可以保持原始估計的分佈。

然而,當我們使用pos插值時,pos中的Laplace平滑確實有效,這是因爲pos的自由度比詞彙表小得多,因此,在使用Laplace平滑之前,要注意數據集相對於參數矩陣的大小,後者決定了Ad-k平滑的係數。

C. CRF

CRF中的概率依賴關係比HMM要複雜得多,這意味着CRF具有更大的潛在能力來描述隱藏鏈和觀察鏈之間的關係,我們在實驗中使用了CRF。
在我們的實驗中,由於訓練數據的不足,原始CRF往往會過度擬合,但是當我們添加pos信息時,情況有了很大的改善,觸發預測的性能比原來的要好得多,因爲CRF模型沒有限制觸發器出現的次數,所以性能可能比HMM差。(也就是說,當HMM使用維特比算法時,F1的分數也是72%)。

關於CRF模型的特徵選擇,我們對幾種類型的特徵選擇進行了評價。
從表中我們發現,低維特徵甚至有很好的效果,證明了連通觀測和隱節點具有很強的對應性,類似於memm[2],並且輸入了前向信息. 與HMM相比,HMM假設隱節點是起因,而CRF假設觀測節點是起因,但它們在數據集中共享相似的信息。



五、結論和討論

根據我們的實驗,很明顯,當我們沒有足夠的數據時,通常會發生過擬合,例如HMM和CRF被不同層次的影響所削弱。但是,除了意識到過度擬合現象之外,解決這個問題的方法更重要。因此,我們提出了幾種解決數據不足問題的方法:
1)使用更多的信息,這些信息可以很容易地訪問:例如詞組,這確實可以提高性能,特別是用於觸發預測。
2)在特定問題中使用更多的限制:例如句子中的觸發器數。
3)採用適當的平滑方法,如低層次特徵的插值,並對加-k值保持謹慎(參數差可能會減少主要信息)。

1和2種建議是一種低層次知識驅動的事件抽取,以改善原始特徵表達,而底層限制在所有語言中都很常見。第三種是機器學習現象,在具體問題中需要認真對待。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章