主題提取

隨着因特網在全球範圍內的飛速發展，網絡媒體已被公認爲是繼報紙、廣播、電視之後的“第四媒體”，網絡成爲反映社會輿情的主要載體之一。網絡環境下的輿情信息的主要來源有：新聞評論、BBS、聊天室、博客、聚合新聞(RSS)。網絡輿情表達快捷、信息多元，方式互動，具備傳統媒體無法比擬的優勢。網絡輿情形成迅速，對社會影響巨大，不僅需要各級黨政幹部密切關注，也需要社會各界高度重視。最近，輿情分析成爲了熱門的研究話題。而主題提取作爲輿情分析的關鍵之一亟待改進，需要非常有效的手段。

本文着重介紹了主題提取的背景和方法。同時針對國內外對主題提取的部分研究、優勢和劣勢進行了對比。主題提取分爲主題句提取和關鍵詞提取兩部分。

一、關鍵詞提取背景

（1）國外背景

1、 Krulwich 和Burkey 利用啓發式規則抽取文檔中重要的詞和短語。這些啓發式規則主要依據格式和簡單結構特點抽取關鍵詞[ 1 ] 。

2、 Steier 和Belew利用互信息發現文檔中含兩個詞的關鍵詞,他們在研究中發現,同樣兩個詞的短語,專業領域計算出的互信息值往往比通用領域高[2 ] 。

3、 Turney 與Witten 分別開發了系統GenEx 與KEA ,這兩個系統在關鍵詞抽取的發展史上具有重要的意義。他們首次利用監督學習的方法訓練已標註關鍵詞的語料,然後通過訓練出的關鍵詞抽取模型對未標註關鍵詞的文檔進行關鍵詞抽取,此方法在準確率與召回率上都超越了前人的工作。

Turney 利用遺傳算法和C4.5決策樹學習方法設計了系統GenEx 。而Witten 採用樸素貝葉斯技術對短語離散的特徵值進行訓練,獲取模型的權值,以完成下一步從文檔中抽取關鍵短語的任務[ 3~4 ] 。

4、 Salton 提出了TF/ IDF ( Term Frequency & Inverse Document Frequency) 算法。此後Salton 多次論證TF/IDF 公式在信息檢索中的有效性,在1988 年又詳細闡述了多種詞權重計算方法在文獻檢索時適用情況[ 5 ] 。詞頻 (TF) 是一詞語出現的次數除以該文件的總詞語數。逆向文件頻率 (inverse document frequency,IDF) 可以由總文件數目除以包含該詞語之文件的數目，再將得到的商取對數得到。

（2）國內背景

1、劉遠超和王曉龍等人利用粗集理論對關鍵詞短語的構成規則進行了挖掘,將挖掘出的規則用於指導關鍵詞的自動抽取,避免了一些錯誤的搭配被抽取,從而提高了系統的性能,使抽取結果更加符合人們的習慣[6 ] 。

2、任克強和趙光甫等人提出以帶權語言網絡來表徵HTML 標記對網頁文本的影響,給出了綜合介數指標與緊密度指標的詞語中心度度量方法,實現了網頁關鍵詞的抽取算法,表現出良好的抽取效果以及可解釋性。

3、馬亮和何婷婷等人採用查詢相關性特徵和話題相關性特徵來對關鍵詞語進行打分,最後將這兩個特徵進行線性組合來得到關鍵詞語的重要度[7 ]。

二、關鍵詞提取算法

（1）標準TF/ IDF 算法

1、初始定義

IDF首先被定義爲Opposed to Document Frequency ,後來Salton 將Opposed to Document Frequency改爲InverseDocument Frequency ,從此IDF ( Inverse Document Frequency)沿用至今。IDF 的權重計算公式如下:w = lbN -lbn + 1其中N 代表總文檔數, n 指包含特徵項的文檔數。Salton 沒有解釋公式的由來,但Shannon的信息論爲我們解釋了IDF 的含義:如果特徵項在所有文檔中出現的頻率越高,則它包含的信息熵就越少;如果特徵項的出現較爲集中,只在少量文檔中有較高的出現頻率,則它擁有較高的信息熵。因此IDF 可以理解爲在一個特定條件下關鍵詞的概率分佈的交叉熵。

2、進一步細化

Salton 在文獻[ 8 ]中提出了TF/ IDF ( TermFrequency &InverseDocumentation Frequency)算法。TF/ IDF 主要體現了以下思想:一個詞在特定的文檔中出現的頻率越高,說明它在區分該文檔內容屬性方面的能力越強( TF) ;一個詞在文檔中出現的範圍越廣,說明它區分文檔內容的屬性越低( IDF) 。經過Salton 的多次論證,信息檢索領域廣泛地使用TF/ IDF 算法計算權重,其經典計算公式爲:wij = t f_ij ×i d f _j= t f _ij ×log( N/ n_j )其中t f_ij 指特徵項t_j在文檔d _i中出現的次數; i d f_j指出現特徵項t_j 的文檔的倒數。N 表示總文檔數, n_j 指出現特徵項t_j 的文檔數。

（2）改進算法

1、Roberto Basils 提出了TF/ IWF/ IWF 方法,權重計算公式如下:w ( w_i, d) = T F( w_i, d) * ID F( w_i )= N ( w_id) * log ( N ( w_i) / N)²其中N ( w_i ) 是文檔中出現wi 的次數, N 是文檔中所有詞出現的次數之和, N ( w_id ) 文本中出現wi 的次數,實現結果表明比TF/IDF 算法有很大提高。

2、陳克利對TF/ IDF 和TF/ IWF/ IWF 公式進行了分析並作了一些改進。認爲關鍵詞在某類的權重受三個因素的影響: 該詞在當前類中的出現頻率;該詞在總語料中的出現頻率;該詞在不同類別之間出現頻率的差異。

3、Bong Chih How 和Narayanan K 提出了用Category Term Descriptor ( CTD) 來改進TF/IDF ,以彌補類別數據集偏斜帶來的困擾。

其中T F 指特徵項t _j在類c_k中出現的次數; D( c_k)指類別c_k 中的文檔數, D F( t_j , C_k) 指類別c_k中出現特徵項t j 的文檔數; C 代表類別數, CF( tj , ck ) 指出現特徵項tj 的類別數。張玉芳和彭時名等通過修改TF/ IDF 公式中IDF 的計算方法,增加那些在一個類中頻繁出現的特徵項的權重。設總的文檔數爲N , 包含特徵項t的文檔數爲n ,其中某一類C 中包含特徵項t 的文檔數爲m ,除C 類外,包含特徵項t 的文檔數爲k 。則t 在C 類中計算式爲:

三、主題句提取背景

（1）國外背景

目前僅有Kastner 等[9]爲CNN 新聞自動提取“新聞要點”的工作與本文思路相同, 都是在單篇新聞文檔中利用語法、語義和統計特徵提取包含事件信息的最重要的句子。Kastner等分析了CNN 新聞中要點句的分佈特徵, 結合句子特徵(句子位置、時間信息、因果動詞、特定觸發詞等)和詞特徵(動詞類別、專有名詞、bonus 或stigma詞)計算句子的重要性, 提取4 個包含關鍵事實信息的句子作爲“新聞要點”。

（2）國內背景

國內對事件抽取的研究雖然起步較晚, 但也取得了一定進展。[10~15]

四、主題句提取算法

（1）中文新聞關鍵事件的主題句識別

1、基本定義

定義1 (關鍵事件5W要素)包括時間(time)、地點(location)、主體(subject)、謂詞(predicate)和客體(object),分別對應於新聞關鍵事件的5W(when, where, who,what, whom)要素, 用五元組〈T, L, S, P, O〉表示。其中S, P, O 是核心要素, T 和L 是輔助要素。

定義2 (主題句) 包含關鍵事件5W 要素〈T, L,S, P, O〉中的核心要素〈S, P, O〉和至少一個輔助要素T 或者L 的句子, 稱爲事件主題句。

定義3 (主題詞集) 文檔的主題詞集是指一組能夠描述文檔中心內容的關鍵詞。

定義4 (標題提示性) 如果標題中包含事件核心要素〈S, P, O〉中的至少一個, 即能夠說明何人(或物)發生了何事, 則稱此標題具有提示性。

2、基於標題分類的主題句提取方法(TC)

基於標題分類的主題句提取方法可描述爲: 給定一篇新聞報道, 計算標題與新聞主題詞集的相似度, 判斷標題是否具有提示性。對於提示性標題,抽取新聞報道中與其最相似的句子作爲主題句; 否則, 綜合利用多種特徵計算新聞報道中句子的重要性, 將得分最高的句子作爲主題句。基於標題分類的主題句提取方法在利用經典文本特徵的基礎上, 考慮了新聞報道的結構特徵和標題信息含量等特徵, 這將使主題句的提取更準確。

1）構造主題詞集

構造主題詞集的目的是識別一組能夠描述文檔內容的關鍵詞, 用於衡量標題的信息含量。我們用兩種方法計算文檔中詞的重要性(term_weight): 一種方法基於TF/IDF, 另一種方法是在利用詞共現關係構造的文檔關聯圖中基PageRank計算詞的權重, 具體方法此處不再贅述。當得到詞的權值之後, 選擇k 個最重要的實義詞構成主題詞集T。k越大, 主題詞集越大, 則覆蓋標題詞的可能性越大。這裏將k 設爲20, 以免太過寬鬆, 無法有效衡量標題的信息含量。

2）標題分類

我們計算標題與新聞主題詞集的相似度, 判斷標題是否具有提示性。標題-主題的相似度用標題H與主題詞集T 中詞的重合個數表示, 如式(1)所示:

在計算標題-主題相似度時, 我們僅考慮動詞、名詞、命名實體等實義詞, 因爲它們能夠作爲事件的S, P, O 要素出現, 滿足標題提示性定義。在進行分類判別時, 由於NP句式標題可能只包含1 個關鍵詞, 因此設置相關度閾值爲1。儘管這是個比較寬鬆的閾值, 但它能有效過濾出“思想決定出路”、“紅土長出三色花”等無信息標題。

3）主題句特徵選取

我們利用自動文摘領域的經典文本特徵計算句子的重要性。除考慮句子本身特徵外, 還考慮句子與標題之間主題相關性和語義相關性。

A、相對詞頻.歸一化處理的句子中詞的權重之和。

B、句子位置。基於句子位置的方法是領域相關的。在有些領域, 段落的第一句話包含主題, 而有些領域則出現在最後一句。在新聞中, 信息含量高的句子通常出現在前幾句和段首。式(3)中閾值l = 3。

C、句子長度。一般來說, 長句子的信息含量高。在新聞中, 過短的句子信息含量少, 較長的句子是主題句的可能性更高。式(4)中閾值c 爲16 個字。

D、命名實體。事件的who, whom, when, where等重要信息通常以命名實體或專有名詞的形式出現在句子中。式(5)利用這一特徵。

E、句子與標題重合度。新聞標題的信息含量通常較高, 計算新聞句子與標題詞的重合度, 如式所示, 可以評估句子的重要性。

4）主題句提取

綜合利用上述文本和語義特徵評估句子的重要性提取主題句。設新聞中有n 個句子, 假設句子的特徵相互獨立, 每個句子si(i≤ n)的總分是各個特徵分量的線性組合, 如式(7)所示。

各個特徵分量的權重w_k 在數據集上通過訓練之後會得到最優組合。利用標題提取主題句的方法依賴於標題的質量, 如果標題沒什麼意義, 這種方法就失去了作用。在這種情況下, 即使新聞中的句子與標題相似也無需認爲它重要。相反, 如果句子中包含非常重要的詞, 即使它不與標題相似, 也必須着重處理。因此,爲了避免非提示性標題引入負效應, 我們用參數a表示標題分類的結果, 它作爲開關決定是否使用標題特徵, 這樣就能保證計算句子重要性時只考慮提示性標題的特徵。

五、小結

主題提取包括了主題句提取和關鍵字的提取。其提取的方式方式方法衆多，國內外都有部分研究，但並不系統，很難直接投入實際運用中。但這些文獻中的方式方法基本都指出主題句和關鍵詞的提取主要取決於其權值。當權值大於某個閥值時，即提取爲主題句或者關鍵詞。所以解決主題提取的關鍵在於如何評定句子或詞的權值。大致有如下思路可以入手：

1、將句子或詞語的長度、位置、頻率等因素綜合起來，分配相對應的係數，計算出句子或詞語的權值。設定合適的閥值，通過閥值來界定各句子和詞語。

2、第一條中的係數和閥值要通過實驗，不斷嘗試跟手工結果作比較，最後得出最精準的係數和閥值。