事件抽取中的“門面技術”:事件名稱生成淺談

6月10日,“網信中國”微信公衆號發佈消息稱:微博熱搜榜、熱門話題榜暫停更新一週,這使得很多熱榜平臺都受到波及,而在喫瓜之餘,我們更進一步地思考熱點榜單以及熱點名稱生成背後的技術,併發出兩連問:
熱點名稱是否僅僅來源於用戶搜索,還是源於對用戶搜索內容的進一步提煉和精簡?對於現在每天發佈的大量資訊,如何將資訊中的熱點提取出來,併爲熱點生成一個形式簡短、表達通順、語義完整的名稱?
實際上,“熱點名稱”這一最終的輸出結果,對於整個事件提取來說,是個實實在在的“門面技術”,熱點名稱是否一目瞭然,是否具有明顯的代表性,是最爲容易被感覺到的。此外,我們在進行事件挖掘的工作中,也愈來愈發現,尋找一種語義豐富、形式剪短、表達連續、語句通順且用戶友好的事件名稱表示方法需求很大,這個在事件類圖譜(事理圖譜)中的節點表示上需求尤爲強烈。
本期圍繞“事件名稱生成”這一主題,從事件名稱生成的必要性以及現有事件名稱生成的方法進行介紹。
一、 事件名稱生成概述
我們將從非結構化文本中生成出一段語義豐富、形式剪短、表達連續、語句通順且用戶友好的事件名稱的過程稱爲“事件名稱生成”。這類似於微博熱搜或百度熱榜中的熱點。
我們打開百度搜索引擎時,可以看到其提供的熱榜服務,其中的熱榜名稱高度語義化,閱讀起來十分通順。但我們可以發現,與熱榜中的某個熱點相關的資訊中,其關聯的標題並不嚴格匹配,如下圖中的“北京累計採樣229.7萬人”下對應的資訊大多都是包含該熱點名詞的資訊。
在這裏插入圖片描述
圖1-百度熱榜中的事件與關聯資訊
從實現上看,大概存在兩種方式:
一種是人工整理的形式,即在資訊出現後,人爲預先地將熱點編輯好,隨後利用文本聚類的方法將相關的資訊關聯到這個熱點名稱上,以做熱度的計量,這個屬於人工的方法;
另一種是從已完成聚類的資訊文本中,利用機器提取的方式,將衆多資訊標題進行聚合和提取,並生成有效的熱點名稱。例如,針對聚類好的文本集合,可以從中抽離出各個資訊對應的標題,並從標題集合中通過公共子串、高頻連續子串(n-gram)或非連續子串評分的方式獲取相應的事件名稱。
以下展示了以“我國開採出五色透明原油”和“鍾南山院士空降北京”爲例,通過使用高頻非連續公共子串評分方法抽取得到的結果:

在這裏插入圖片描述
圖2-基於最大非連續公共子串的事件名稱生成效果
然而,針對單個文本而言,缺少統計、計量信息和對比信息,就需要返回到篇章本身來進行抽取,這種場景在如事件類圖譜(事理圖譜)中的事件節點名稱在內的事件抽取領域需求尤爲強烈。在很多現有系統中,大致有三種方式來處理:
一類是基於主題詞、關鍵詞或論元序列的名稱表示,其核心思想爲利用關鍵信息提取技術提取出某篇文檔或事件的核心詞彙,並按照某種排序規則進行表示。例如,利用典型的LDA主題建模得到相關主題詞,利用TFIDF算法提取關鍵詞,並選擇其中的名詞性實體、名詞性短語、動詞或動詞性短語進行排序組合。這種方式較爲簡單、粗暴、語義不連貫,十分不利於閱讀。
另一種是將文本中所涉及的論元,按照形如[人物]在[時間詞]做了[動作詞]的組織規則進行組合,這與框架式(framenet、ACE)的事件表示思想類似,如圖3中列舉的金融領域事件,事件名稱可從對應的事件要素和論元進行組合而來。不過,這種方法無法滿足大量異構的事件類型,模板和規則常無法涵蓋所有情況。

在這裏插入圖片描述
圖3-金融領域典型框架類事件樣例圖
第二類是按照原文自身不做任何改變,挑選標題或核心句作爲本文的事件表示,EventRegistry等大多數現有系統都採用了這一方法。標題的優勢在於篇幅要比正文要短,概括了整篇文章的內容,但標題對於目前營銷號等傳媒手段的泛濫,許多文不對題等標題黨大量出現帶來了不小影響,爲了將標題糾偏,常使用基於標題和核心句並舉的方式。這種方法比基於詞序列的方法看來更爲友好,但往往篇幅過長,在顯示和傳播上帶來一定的限制;
第三類是指介於主題詞序列和原文標題之間的一種表示方法,即對已經提取好的標題或文章核心句,進行形式上的加工,使得在不損失原文意義的情況下,儘可能縮短原句,並保證閱讀通順和語序合法,這也是本文探討的問題。目前此類方法大多以標題爲輸入,使用基於句法分析的主謂賓事件短語提取和基於語句壓縮的事件描述提取作爲提取過程來加以實現。
二、 基於句法分析的主謂賓事件名稱生成
針對輸入的標題或摘要,進一步形成更爲剪短的事件描述,結構化三元組的主謂賓抽取是其中的一個重要形式。句法分析是目前基於規則方法的主謂賓提取必備環節,通過句法分析手段,對句子進行成分分析,可完成短語的提取。
對於如何描述語句的語法結構,目前有兩種主流觀點:
一是短語結構語法,用某種規則分解句子爲短語和單詞,作用是識別出句子中的短語結構以及短語之間的層次句法關係,如下圖中的(a)所示。
二是依存句法,依存句法認爲“謂語”中的動詞是一個句子的中心,其他成分與動詞直接或間接地產生聯繫,通過分析語言單位內成分之間的依存關係揭示其句法結構,如下圖中(b)所示。
在這裏插入圖片描述
圖4-句子成分分析(a)和依存句法分析(b)圖
常見的句法分析工具包括加州大學伯克利分校自然語言處理實驗室開發的基於概率上下文法(PCFG)的Berkeley Parser句法分析器,斯坦福大學研製的StandfordParser,同時支持句子成分分析和依存句法分析,國內的依存句法分析器包括LTP、HanNLP等都提供了這一句法分析的服務。例如,給定句子:
“以色列國防軍20日對加沙地帶實施轟炸,造成3名巴勒斯坦武裝人員死亡。”
在這裏插入圖片描述
圖5-依存句法分析示意圖
通過依存句法分析,我們可以得到該句子各個成分(詞語及其詞性)以及成分之間的依存關係類型,如圖5所示。其中,約定謂語爲動詞性的詞語,這樣即可完成步驟:
遍歷整顆依存句法樹,執行:
1) 選擇詞性爲謂詞性的詞語,如動詞v作爲候選,如我們得到了[“實施”、“轟炸”、“造成”、“死亡”]4個候選謂語;
2) 根據每個候選詞,查找該候選詞是否存在“主謂”或“並列”關係和“動賓”或“並列”關係,有則保留,得到最終的候選謂語集合,即[“實施”];
3) 針對候選謂語集合中的每個謂語詞,分別查找其動賓關係的連接成分作爲賓語,查找其對應的主謂關係的連接成分作爲主語。如可得到“實施”的主語爲“以色列國防軍”,“賓語”爲“轟炸”;
4) 針對謂語進行擴展,若謂語對應的賓語成分存在並列連接,並滿足連接成分存在動賓關係,那麼該連接成分則繼承原賓語成分的主語,擴展出一個新的謂語,針對該謂語重複步驟3),可進一步得到“造成”的主語爲“以色列國防軍”,賓語爲“死亡”這一結果;
5) 針對形成的主謂賓三元組,分別將其對應的主語和賓語進行擴展,擴展方式可按照前置修飾成分規則執行;
按照此類方法,我們可針對多個輸入句子進行主謂賓提取,得到以下結果:
在這裏插入圖片描述
圖6-基於依存句法分析的主謂賓提取效果圖
同樣的,針對句子成分分析的方法,可根據生成語法的相關規則(如IP短語統轄NP和VP短語)進行提取。
不過,基於句法的主謂賓提取,一方面對句法分析的性能要求較高,在實際的使用過程中常會因爲句法分析錯誤而導致提取錯誤,並存在召回率差等特點。此外,該方法對提取規則依賴也較高,需要有專業的人士進行大量的規則模板的總結,較爲費時費力。該方法針對規範的短句效果較好,但在長句或超長句,主系表結構、主謂雙賓結構的句子效果還有待提升。
2)基於深度學習的主謂賓提取
基於深度學習的主謂賓提取,與開放信息三元組抽任務十分類似,針對給定的文本,識別出其中的主語成分、謂詞成分和賓語成分,最終組合輸出正確的主謂賓即<S,P,O>三元組。
實際上,開放信息三元組抽取存在如一個S對應多個(P, O);多個S對應多個(P, O);多個S對應一個(P, O);同一對(S, O)可能對應多個P等在內的多個難題,目前在事實上還存在諸多挑戰,從實現上看,學習型模型中主要包括兩種方式,即串行方法和聯合抽取的方法。
其中,串行方法是目前用的較多且較爲基準的一種方法,思路大致爲:先進行成分識別,然後對識別出的成分進行關係分類,但這種思路無法很好地處理同一組(S, O)對應多個P的情況,同時會存在採樣效率的問題,在處理一個句子中存在多個主語成分、賓語成分或謂語成分時,會帶來分類的爆炸問題。
在這裏插入圖片描述
圖7-基於串行方式的主謂賓提取示意圖
此外,將該任務當成一個整體的序列標註問題,即聯合式抽取模型是另一種思路,但這種設計不能很好地處理同時有多個S、多個O的情況,在進行組合時,常常不可避免的使用簡單粗暴的“就近原則”,即如果一個句子中包含兩個或者更多相同關係類型的三元組,我們基於最近原則將兩個實體組合爲三元組,這在實際的長句處理中的性能常常會大打折扣。
在這裏插入圖片描述
圖8-基於聯合方式的實體關係抽取示意圖
有趣的是,近期有使用“半指針-半標註”的方式來處理這一問題的思路。所謂“半指針、半網絡”指的是去掉CRF,改爲“0/1標註”來分開識別某一成分的開始和終止位置,這可以看成一種“半指針半標註”的結構。例如,針對給定的主語、謂語和賓語三個成分,使用BE標籤來記錄成分的起止位置,共可得到3*2共6個標籤,針對輸入的句子,通過計算sigmoid,可以預測出每個字符在6個標籤中的狀態“0”或“1”,這樣即可得到每個成分在句中的位置信息,解決SPO位置重複的問題。
在這裏插入圖片描述
圖9-基於半指針半網絡的實體關係抽取示意圖

三、 基於語句壓縮方法的事件名稱生成
從定義上看,語句壓縮,又名Sentence Compression,指給定一個句子,生成對應的一個句子,生成的句子滿足比源語句短、保留源語句的重要信息,符合語法規範三個條件。例如給定:
“據法新社報道,有目擊者稱,以軍23日空襲加沙地帶中部,目前尚無傷亡報告。”
得到縮寫結果爲:“目擊者稱以軍空襲加沙地帶中部”
語句壓縮通過對句子進行冗餘信息修剪,壓縮爲一個更剪短、符合文法且能表達原句核心內容的句子,常應用於自動文摘技術、信息抽取、問答系統、機器翻譯和文本分類等領域。
例如,Vandeghinste&Pan在刪除冗餘和非重要信息的同時保留話題主要論點,從而生成對話標題。又如Grefenstette爲了使盲人能夠像正常人一樣快速閱讀文章,在閱讀器里加入一個語句壓縮模塊,使得盲人通過手指控制壓縮率從而調節閱讀速度,從而取得與正常人一樣的快速閱讀。
語句壓縮技術,從實現的方法來看,可分爲基於模版規則的方法,基於統計的方法和基於深度學習的方法。
1) 基於句法模板規則的句子壓縮方法
基於規則的句子壓縮主要思想是首先識別一個句子中的不同成分,然後保留正在句子中最重要的成分,並刪除在句子中處理非核心成分的內容,該方法的關鍵問題在於如何選取合適的壓縮規則,即通過最小化語法錯誤比例或修剪句法樹等得到壓縮句子。

圖10-句子壓縮效果示意圖在這裏插入圖片描述
規則式語句壓縮方法包括刪除單詞、插入單詞、改變詞序或替換單詞等方法進行壓縮,如Knight&Marcu(2002),Riezler等(2003)的工作。其中,詞法分析和句法分析是其中兩個重要環節,通過對句子進行詞法分析和句法分析,生成句法樹,然後根據規則刪除句子中次要的單詞或短語成分,如不必要的虛詞成分、形容詞性修飾成分,非否定性狀態成分等。例如:
否定詞(不、沒有、沒等)不能丟;能願動詞(要、應該、能夠等)要保留;主謂賓語的並列成分不能丟;主謂短語作主謂語時只取其主幹;主謂短語作賓語時全部保留;連動句要留下每個動詞及其賓語;雙賓語要留下每個賓語中心詞等等,具體的取捨規則還需與具體的業務做相應更改。
2) 基於統計的句子壓縮方法
基於統計學習的方法包括基於語料驅動的有監督學習和基於知識驅動的無監督學習。如Knight和Marcu提出了一種基於決策樹的壓縮方法,McDonald採用了最大邊緣學習算法、Cohn和Lapata提出了基於STSG的語句壓縮技術。
在這裏插入圖片描述
圖11-基於SVM統計方法的句子壓縮示意圖
3) 基於深度學習的句子壓縮方法
在各類深度學習範式中,句子壓縮可以轉化爲典型的序列預測任務,即輸入原句序列,預測輸出壓縮句序列。該類任務通常基於編碼器—解碼器框架解決,編碼器將輸入句子序列編碼爲稠密向量,此向量包含原句語義信息,解碼器解碼此向量生成原句中各詞的保留或刪除決策。
在這裏插入圖片描述
圖12-序列標註方法下的句子壓縮標籤預測
Filippova等人首次將深度學習模型適用於句子壓縮任務,其使用三層單向LSTM堆棧作爲編碼器—解碼器組件,在大規模數據集上獲得了優於傳統壓縮系統 的結果。Tran等人對Filippova等人的模型結構進行改進,提出一種基於注意力機制的雙向LSTM 模型用於句子壓縮。
在這裏插入圖片描述
圖13-基於LSTM模型的句子壓縮標籤預測
不過,目前國內對語句壓縮的研究還處於剛剛起步的階段,一方面缺乏匹配該任務的發規模平行語料,常用的英文語料庫包括Ziff-Davis Corpus,該語料庫從4000多篇新聞報道中自動抽取了1067組“原語句-壓縮句”句對。針對抽取帶來的錯誤以及測試集過小的問題,Clarke和Lapata採用人工標註的方式構建了Clwritten和Clsopken兩份英文語句壓縮語料,數量也不過幾千條。加上標註難度很大,其次缺乏行之有效的自動評價方法,目前大多的評價方法都是人工爲主。
四、 總結
事件名稱生成是事件抽取和情報挖掘中的重要技術,在熱點挖掘、情報分析、輿情監控領域有很大的應用空間。本期圍繞“事件名稱生成”這一主題,從事件名稱生成的必要性以及現有事件名稱生成的方法進行了介紹。
針對聚類好的文本集合,可以從中抽離出各個資訊對應的標題,並從標題集合中通過公共子串、高頻連續子串(n-gram)或非連續子串評分的方式從中獲取相應的事件名稱。本文經過嘗試,驗證了該方法的可靠性。
基於句法分析的主謂賓事件短語提取和基於語句壓縮的事件描述提取和語句壓縮方法的事件名稱生成的兩個重要方法。其中:
句法分析包括句子成分分析和依存句法分析兩種,基於句法的主謂賓提取,一方面對句法分析的性能要求較高,在實際的使用過程中常會因爲句法分析錯誤而導致提取錯誤,並存在召回率差等特點。該方法針對規範的短句效果較好,但在長句或超長句中,如主系表結構、主謂雙賓結構的句子效果還有待提升。
語句壓縮的方法通過對句子進行冗餘信息修剪,壓縮爲一個更剪短、符合文法且能表達原句核心內容的句子,從實現的技術來看,可分爲基於模版規則的方法,基於統計的方法和基於深度學習的方法。不過,在模板規則上,存在着與句法分析一樣的不足,在深度學習方法上,需要大量的標註語料,整體技術仍處於初步階段。
事件名稱生成技術是事件抽取中的一項重要“門面技術”,現有的一些方案較多,但依舊存在着很大侷限性,因此在實際的語句縮寫中,還是以基於規則模板的句子壓縮方法爲主。而如何充分利用好文章、標題以及語句的語義,有針對性地給出一個高效的方案,也是我們在事件抽取方面着力解決的問題,歡迎各位關注我們的工作。

參考文獻
[1]數據地平線.數地工場,https://nlp.datahorizon.cn
[2]數據地平線.學跡,https://xueji.datahorizon.cn
[3]周亮俊.基於語句壓縮的中文語義依存分析[J].計算機應用,2017,37(S1)
[4]姜雪.中文語句壓縮關鍵技術研究[D].東北大學,2014
[5]張永磊.語句壓縮及其應用研究[D].蘇州大學,2013
[6]張永磊.基於結構化學習的語句壓縮研究[J].中文信息學報,2013,27(02)
[7]https://spaces.ac.cn/archives/6671
[8]https://hanlp.hankcs.com/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章