基於關鍵短語的文本分類研究

基於關鍵短語的文本分類研究
 劉華
(暨南大學 華文學院/海外華語研究中心,廣州 510610)
摘  要: 文本分類的進一步改進不在算法方面,應該立足於影響文本分類最底層、最根本的因素:文本表示中的特徵項,提高特徵項的完整獨立程度。關鍵短語是具有強文本表示功能的特徵短語,在表示文本時,能將文本的內容特徵(如主題類別)鮮明地表示出來。關鍵短語具有結構穩定、語義完整和強統計意義的特點,能克服向量空間模型和貝葉斯假設的缺點,更適合作爲文本表示的特徵,有利於提高文本分類的效果。本文從語言學、認知心理學和言語習得、計算語言學等方面尋求關鍵短語優勢的理論依據,對關鍵短語進行了界定,通過抽取網頁上專家標引的關鍵詞獲得關鍵短語。在約3萬篇測試集上(共15個大類,244個小類),與以詞爲特徵的文本分類相比,以關鍵短語爲特徵的文本分類的大類微平均提高了3.1%,小類微平均提高了15%。
關鍵詞: 文本分類;關鍵短語;文本表示;特徵項
Text Categorization Based on Key Phrases
Liuhua
(College of Chinese Language and Culture, Jinan University, Guangzhou, 510610)
Abstract:  Improvement in text categorization lies not on algorithm of classing model, but on the fundamental element: integrated and independent feature of text representation. Key Phrases are phrase that have strong text representation function, can characterize text content such as subject and kind. With steady structure, integrated meaning and statistical significance, Key Phrases can overcome the limitation of VSM (Vector Space Model) and NB (Naive-Bayes), are fit for feature of text representation, and are propitious to improving effect of text categorization. From linguistics, cognitive psychology and computational linguistics, we searched the base of theory of Key Phrases' advantage, defined Key Phrases, and acquired them by extracting key words labeled by specialist in web pages. The experiment proved that Key Phrases are fitter for feature of text representation than words: MicroF1 increase of 3.1 percent of parent- category, MicroF1 increase of 15 percent of sub- category.
Key words:  text categorization; Key Phrases; text representation; feature
文本分類的理論研究比較成熟,而且也出現了一些初步的應用系統。文本分類的研究主要圍繞算法方面進行,如特徵提取、權重計算、分類模型的算法的分析與改進。相對來說,文本分類需要的資源方面研究的較少,如文本表示中特徵項的粒度選擇和獲取,特別是概念、短語、詞和字究竟哪個更適合作爲文本表示的特徵項的問題缺乏系統的研究。我們認爲文本分類的進一步改進不在算法方面,應該立足於影響文本分類最底層、最根本的因素:文本表示中的特徵項,文本分類的改進應該專注於提高特徵項的完整獨立程度。
相對於字、詞和N元組,關鍵短語(Key Phrases)結構穩定、語義完整、統計意義較強,更有利於表達文本內容特徵,提高文本分類的效果。本文從語言學、認知心理學和言語習得、計算語言學等方面尋求關鍵短語優勢的理據;對關鍵短語進行了界定;通過抽取網頁上專家標引的關鍵詞構建了共32萬詞條的含關鍵短語的大詞語表;實驗證明在約3萬篇測試集上(共15個大類,244個小類),與以詞爲特徵的文本分類相比,以關鍵短語爲特徵的文本分類的大類微平均提高了3.1%,小類微平均提高了15%。
1 文本分類算法改進的分析
基於統計的分類算法是主流,主要包括以下幾種分類模型:相似度模型(Rocchio、K-近鄰)、概率模型(貝葉斯)、線性模型(LLSF、SVM)、非線性模型(決策樹、神經網絡)、組合模型。對於這些分類算法,國內外很多研究者進行了客觀評測(Yang,1999;Joachims,1998;He,2000;Tsay,2000;龐劍鋒,2001;王灝,2003;李保利,2003;周雪忠,2003)。
很多實驗證明無論分類算法如何改進,分類效果總難以提高,而且衆多分類算法在訓練集充分的情況下,幾乎沒有什麼區別。在周雪忠的實驗中,統計數據表明詞頻特徵表示的TFIDF/Rocchio的分類準確率在測試集相對充分時高於SVM,在特徵表示和分類器相結合的實驗中,TFIDF/Rocchio(W)取得了最好的效果,最後他得出結論,採用相對高維的特徵表示(如詞)和簡單的分類方法(如TFIDF/Rocchio)即可達到理想的分類性能要求。另外,Yiming Yang和Xin Liu(1999)對五種文本分類方法進行了受限的統計顯著性測試研究:支持向量機(SVM)、k-近鄰(KNN), 神經網絡(NNet)、線性最小平方擬合(LLSF)映射和樸素貝葉斯(NB)。結果表明當訓練集平均,每個類中的正例數目較少時(少於10),SVM、KNN和LLSF比NNet、NB顯然要好,而當處理大分類(超過300個正例樣本)時所有的分類方法性能相當。這些都證明在算法改進提高分類效果的基礎上,文本分類效果的進一步提高已經不能單純依靠算法了。
在基於統計的文本分類方法中,向量空間模型基於這樣一個關鍵假設:文章中詞條出現的順序是無關緊要的,他們對於文檔的類別所起的作用是相互獨立的。但實際上,句子中詞條之間遠不是獨立的,同樣的詞條集合,組合順序不同,其表達的含義也不同。由此,向量空間模型一個很大的缺陷在於它沒有考慮文本上下文間的語義關係和潛在的概念結構(如詞彙間的共現關係、同義關係等),特徵項之間獨立性不夠,不能充分反映出文本總體面貌。在概率模型中,也存在類似的貝葉斯假設,即特徵之間被假定爲是相互條件獨立的。
正是因爲從根本上難以克服貝葉斯假設和向量空間模型的先天缺陷,因此,基於其之上的很多算法準確率都不高。最基本最有效的改進應該是從向量空間模型和概率模型的文本表示入手,提高特徵項之間的獨立性,比如用語義概念、詞彙之間的互信息或搭配來滿足特徵項的獨立性假設。例如,"醫藥"詞語只會歸類到"醫藥" 類,"板塊" 詞語則傾向於歸入到"地理"類,"醫藥板塊"短語語義更獨立完整,更適合表示文本內容,可準確分到"經濟_股市基金"類。
這在漢語中體現得尤爲明顯。由於漢語是語義型語言,和英語相比,更加講究意合,形式化程度較低,符號之間的搭配受規則限制較少,位置靈活自由,受潛在語義的制約。因此,向量空間模型和貝葉斯假設的先天缺陷可能還要放大些,在英語中表現較好的統計方法在漢語可能還要打些折扣。
既然衆多實驗證明了文本分類改進的方向不在算法上,統計算法難以從根本上克服貝葉斯假設和向量空間模型的先天缺陷。因此,我們認爲文本分類的改進應該立足於影響文本分類最底層、最根本的因素:文本表示中的特徵項。文本分類的改進應該專注於提高特徵項的完整獨立程度。
目前,文本分類中表示文本特徵的特徵項包括字、詞、N元串、短語和語義概念。從理論上來說,應該是長的短語(句法級)優於詞(詞語級),語義概念(語義級)優於短語。但由於目前自然語言處理水平的限制,多數信息處理的應用系統,如文本分類和信息檢索系統,採用詞作爲特徵,少見的系統採用N元組(n-gram)(戴保存,2000;宋楓溪,2004;周新棟,2005,王映,2005),目前的結論傾向於認爲以N元組爲特徵項比以詞爲特徵項的分類效果基本相近或有所下降。O.Zamir也通過實驗說明了在英語中短語由於其"固定性"和"有序性"而優於固定長度的低價N元字符串;也有一些系統採用字作爲特徵(曹素麗,1999;王夢雲,2004),但這隻會提高速度,不會提高準確度;還有一些則利用語義詞典(Hownet、Wordnet或同義詞詞林)進行特徵的語義概念表示(戰學剛等,2000;李蓴,2003;黨齊民,2004;徐建斌,2005)或進行潛在語義索引(林鴻飛,2000;曾雪強,2004)和語義SVM表示來改善分類效果(代六玲,2004),但語義資源獲得較難,覆蓋度不夠,而且算法複雜度較高。
總的說來,相對於字、詞和N元組,短語結構穩定,具有一定的凝固性;在大規模真實文本中具有一定的流通度,並非臨時性的組合,可重用性強,具有統計上的意義;表意完整單一、所指明確,在意義上有一定的完整性和專指性。和語義概念相比,短語獲得比較容易。因此,短語更適合作爲文本分類的特徵項,有利於表達文本內容特徵。
2 短語優勢的理據
在語言學、認知心理學和言語習得、計算語言學等方面,我們可以找到短語優勢理論上的依據。
2.1 語言學上關於"詞組本位"的論述
朱德熙先生明確提出了"詞組本位"的思想,認爲語素和詞、短語、句子這三級語法單位中,語素、詞、短語都是組成關係,即語素組成詞,詞組成短語,而短語和句子則是實現關係。漢語三級語法單位形式上存在連續性,沒有天然分隔界限,在構造上基本採用相同模式。短語處於靜態單位(語素、詞)和動態單位(詞和短語結合形成的小句和句子)的交接處(呂叔湘),在內部結構上,短語和詞發生關係,在外部功能上則和句子關係密切。短語兼具結構單位和功能單位雙重角色。選擇短語作爲語法描述系統的切入點,對詞的屬性判斷可以直接在構成短語時得到檢驗,對句子的分析理解也可轉化爲對短語的層層剖析。短語本位語法體系以短語構造規律的研究輻射對詞和句子性質的探求,理順了三級語法單位間的關係。
2.2 計算語言學上的"短語方法"
喬姆斯基認爲人的語言知識的基礎部分包括語法規則和詞典兩個部分(Chomsky,1965)。近年來,計算語言學家認識到不能把語言知識嚴格地分爲詞典和語法規則兩部分。(Wilensky,1984)提出了"短語方法",提出把短語和詞一樣放到詞典中,Zernick和Dyer(1987)則主張把能產的和非能產的短語都放到詞庫中,甚至主張不要語法規則,用短語庫代替語法規則。機器詞典中除了收入普通的詞之外,還需要收入一些較凝固的短語,如世界著名的機器翻譯公司SYSTRAN的漢英機器翻譯系統的詞典規模達到60萬,其中就收入了大量的短語(Yang,J. & Gerber,L.,1996)。
短語的"內部結構比較穩定,往往作爲一個整體和句子中的其它成分發生作用,並且它的構造原則和句子的構造原則也基本一致"(周強,1997)。在計算語言學界,目前的一個主要領域是對短語的研究,比如短語的自動劃分和標註或者組塊分析。
2.3 認知心理學上的"語塊"與"長串切分"
1956年Miller指出短時記憶的容量是7±2個單位,這就是記憶廣度( chunk)。語塊被看作是記憶的單位,它因人們認知結構和以往經驗的不同而有大有小。雖然短時記憶容量很小,但人們可以藉助自己的已有知識和經歷對信息進行組塊,大腦採取最大限度擴大存儲單位的方法,即採用長串切分的方法,使得信息迅速、高效地編碼,以語塊形式儲存的信息也便於日後檢索和提取,這便是記憶的組塊效應。
認知心理學家也從傳統的語義學所定義的"詞位"角度進行研究,認爲語言中詞和短語的整體性識別容易形成反應模式。Freeddle(1979)的研究證明,在模式反應中語言反應時間並不隨單位的長度增加而增加。Osgood和Hoosain(1974)的研究也說明,熟悉的複合名詞的識別速度與同樣長度和頻率的單詞識別速度相同。因此,在相同反應時間控制下,加大識別單位的長度,更有利於語言理解過程的進行。
在言語習得中,"詞彙短語" 是"一串作爲整體儲存在腦中的詞,可以以預製板塊的形式被提取和使用,其形式可以原封不動,或是稍作改變" (Willis,2000)。 研究發現,在母語學習者的言語表述中很大一部分是詞彙短語,詞彙短語對語言學習者語言的流利度和地道性起着重要作用(Skehan,1999;Pawley、Syder,1983;Widdowson,1989;Wong Fillmore,1976)。
3 關鍵短語的界定和獲取
3.1 關鍵短語的界定
簡單地說,關鍵短語是具有強文本表示功能的特徵短語。所謂強文本表示功能,是指在文本表示時,能將文本的內容特徵(例如領域類別、主題思想、中心意義等)鮮明地表示出來。例如,常見的虛詞性成分(如"總而言之")的文本表示功能較弱,而一些領域性強的體詞性成分(如"封閉式基金")則文本表示功能較強。具體地說,可以從三個角度來界定關鍵短語:
[1]  結構上:
結構較穩定,具有一定的凝固性。
[2]  語義上:
    表意完整單一、所指明確,在意義上有一定的完整性和專指性。
[3]  統計上:
在大規模真實文本中具有一定的流通度,並非臨時性的組合,可重用性強,具有統計上的意義。
從關鍵短語的定義及其三個界定以及詞與短語的界限模糊性來考慮,我們定義的關鍵短語是包括短語和詞的,只不過由於"強文本表示功能"和"語義的完整性和專指性"的限定,詞佔的比例較小。
當然,上面三個界定還需具有可操作性,我們下文將會利用文本分類的特徵提取方法提取和聚類關鍵短語,進一步對關鍵短語作出形式化與定量化的界定。
3.2 關鍵短語與短語
關鍵短語當然是短語。但通常所說的短語範圍很廣,包括三類:自由短語、固定短語和類固定短語(或半固定短語)。自由短語多是一些臨時性的組合,如"羣衆的智慧、聽不明白、討論問題、所提的意見、開會前、這幾個"等,通常也叫非固定短語。這些短語中的成分只要符合語義和句法上選擇性的要求,即可自由替換,但在真實文本中的統計意義不強,用它們來表示文本特徵顯然並不適合,因此,自由短語首先被排除在關鍵短語之外。
固定短語的內部構成成分相對穩定而不能隨意替換,也可看作是短語化了的詞,主要是成語,還包括口語色彩較濃的慣用語,如"閉門羹、露馬腳"。它們一般都收入進了詞表。固定短語,如成語和慣用語,大多古已有之,多出自古代的作品、故事傳說(走馬觀花、刻舟求劍)或現當代的固定搭配(百花齊放、力爭上游、露馬腳)。它們一般具有表意的雙層性特點,其整體意義和字面意義不一致,使人產生聯想,運用起來能收到生動、形象、言簡意賅、耐人尋味的修辭效果。這顯然也不符合關鍵短語的表意完整單一、所指明確的特點,基本上也被排除在外。
還有一些介於二者之間的,這些處於模糊地帶的半固定短語,或者稱之爲詞語搭配(collocation)或詞彙化短語(lexical phrase),如"可視電話、社會效益、規章制度、浮動利率"等,這些組合有自己的語法結構,也可以用規則加以描述。它們在被翻譯成另一種語言時,經常不能用詞對詞翻譯的方式,說明這些短語在結構上具有一定的凝固性,在意義上有一定的完整性和專指性。
半固定短語正是我們需要重點關注的對象。和詞、固定短語相比,半固定短語具有更強的語義單一性,往往語義結構穩定,沒有歧義,能夠更好地表達或指向語義概念。相反,詞則靈活性更大,語義結構不夠穩定,往往含有歧義。和自由短語、分句或句子相比,半固定短語又具有結構穩定的優勢,而且具有統計學上的意義。半固定短語不僅具備自由短語、分句或句子所不具有的穩定性,而且具備詞、固定短語所沒有的語義單一性,很適合表達文本內容特徵。
命名實體、本體、術語的基本特徵都是領域相關性,語義專一完整、結構固定,它們都是關鍵短語的一部分。
在情報學上,主題詞又稱敘詞(即正式主題詞),是在標引與檢索檔案時,主題詞表中規定用於表達檔案主題概念的詞語 。文獻標引中關鍵詞是指出現於論文標題,摘要或正文中,對錶徵論文主題內容具有實際意義的詞語。關鍵詞是一種非標準化的自然語言,是非正式主題詞。從二者定義來看,它們的主要特徵也是領域(主題)相關性。根據我們對關鍵短語的界定,也應該是關鍵短語的一部分。而且,文獻標引中的關鍵詞正因爲其是一種非標準化的自然語言,與命名實體、本體、術語和主題詞的嚴格科學性和固定來源不同,它來源很廣,數量很多,將會是關鍵短語主要的構成來源。
3.3 關鍵短語的獲取
目前國內外有許多基於規則、統計或規則統計結合的短語發現方法,如CHURCH、趙軍、周強、孫宏林、孫茂松、黃昌寧、李素健等。主要用到的方法包括:類詞語切分邊界確定的,基於HOWNET、知識圖、最大熵、SVM、決策樹、神經元網絡或隱馬爾科夫模型的,統計與錯誤驅動相結合的,等等。在詞語的關鍵程度計算(文本分類中的權重計算)方面也提出了一些算法,如Bootstrapping、互信息、TFIDF、最大熵,等等。
目前,我們主要通過大規模地抽取門戶網站網頁上專家標引的"關鍵詞"來獲得原始的關鍵短語。"關鍵詞"是對一個網頁主題的描述詞語,是文本主題表示功能強的詞語,多爲短語,基本符合我們對關鍵短語的定義。一般一個網頁約三個關鍵詞,例如一篇題爲《安然高官仍受調查 前主席祕書承認犯內部交易罪》網頁的關鍵詞爲"安然 內部交易罪"。這些詞語往往結構固定、語義完整,是領域中的關鍵短語,如"保修證明書、手機操作系統、精確轟炸"。
抽取時只針對網頁中主題性的"關鍵詞"鏈接,如"<meta name="keywords" content="安然 內部交易罪">",並非標題性的鏈接,如"<meta name=keywords content="薩達姆辯護律師藉口伊拉克騷亂要求推遲複審">"(主題性和標題性的鏈接在網頁中很容易區分,在網頁的不同位置)。而且,抽取後還需利用"長度+頻次"的方法進行排錯處理,方法如下(以經濟類抽取的關鍵詞爲例):在17058個詞語中,詞次大於或等於4的詞語,由於是多次出現,避免了筆誤、超常詞語或標題性句子(如"虐人"、"薩達姆辯護律師藉口伊拉克騷亂要求推遲複審")等偶爾出現的出錯情況,百分之百正確。詞次小於4特別是詞次爲1的詞語,有一些是上面提到的筆誤、超常詞語或標題性句子,但比例很小,在4079個詞語中總共發現了11個,大多是形如"薩達姆辯護律師藉口伊拉克騷亂要求推遲複審"這樣標題性的小句,詞次都小於等於2(基本上爲1)。因此,對從關鍵詞中抽取的所有類的詞語,我們只對詞次小於等於2的詞語進行了排錯,結果表明錯誤率等於0.25%。
超大規模層級分類語料庫時間跨度爲4年(2002-2005),約60萬個網頁,6億字, 15個大類,層級類別體系最深爲四級,如"科技_數碼_視頻_數字電視",類目總共244個。從60萬個的57萬個網頁中(3萬爲部分測試集)抽取出其中已標註的關鍵詞,總共229237個詞條,按原來網頁的主題屬性存儲進詞表,形成15個大類的領域詞表(按層級小類形成244個領域詞表)。
雖然這些"關鍵詞"文本表示功能較強,但由於網站標引的非嚴格性,仍然需要結合關鍵短語的定義,利用文本分類中的特徵選擇方法進行進一步的篩選。
公式一:訓練時,關鍵詞在類中的權重計算公式(陳克利,2003)
 
其中, , 是類 含有的所有詞的次數之和, 是詞i在類 出現的次數;  ,其中m爲類別數; 表示訓練語料中出現詞 的次數,N是訓練語料中所有詞出現次數之和;n >= 1。
由於無法進行召回率的計算,只計算了準確率。以經濟領域爲例,分別取聚類後(32萬底表,n=3)的前1000、2000、3000、4000、5000個詞語,人工進行評測,但這種人工評價方法主觀性較強。評價結果如下表:
表1  準確率
領域 正確詞數 抽取到的總詞數 準確率
經濟 962 1000 96.2%
 1916 2000 95.8%
 2870 3000 95.6%
 3814 4000 95.3%
 4737 5000 94.7%
4 基於關鍵短語的文本分類實現
4.1 分類算法選擇
面對衆多的分類算法,選擇一個適合自己的算法是個必須考慮的問題。考慮到我們面對的是大規模實時更新的網頁語料,分類算法的速度至關重要,簡便快捷是其首要條件。
從上面第一節的分析可以看到,訓練集充分和高維特徵表示是分類高性能的關鍵(周雪忠,Yiming Yang、Xin Liu),文本分類的關鍵在於如何滿足向量空間模型和概率模型的獨立性假設。實際上,這都是文本表示的問題。相對於詞,關鍵短語是複雜特徵項,包含更豐富的語言學信息,如句法搭配、語義制約,自足性、獨立性更強;充分的6億字語料集(訓練集5.7億),則更能保證關鍵短語的出現及其出現語境,部分解決數據稀疏問題。二者都有助於文本表示的合理有效。
考慮到上面的因素,本文采用高維的關鍵短語特徵項結合簡單的VSM相似度計算的分類方法進行文本分類。VSM相似度判定採用夾角餘弦法。
4.2 訓練集、測試集和測試方法
語料來自上文提到的超大規模層級分類語料庫,共6億字,分爲15個大類,244個層級小類,約60萬篇XML文檔。
表2  15類語料
類別 文件數 類別 文件數 類別 文件數 類別 文件數
遊戲 22843 旅遊 18471 汽車 21745 教育 24405
經濟 40115 文藝 14248 體育 96120 生活男女 19382
科技 53126 時政_國際 59130 娛樂 23905 時政_社會 42559
房產 19573 時政_國內 119695 時政_軍事 21743 總計 597060
訓練集類別構成基本上同比例等於總語料類別,共約57萬篇XML文檔。
測試集源於同樣的語料庫,由於訓練集太大,層級小類和兼類需要人工校對,工作量很大,也難以保證校對的客觀性和一致性。因此,測試只採用了約3萬篇,和訓練集的比例約20:1。測試語料有部分已經人工校對,2862篇文檔已標記兼類,約佔總測試集的十分之一。分類產生兼類時,這二類往往都可以作爲文檔的類目,較少存在主次之分。
測試時採用如下方法打分:
表3  測試打分方法
專家分類 系統分類 得分 專家分類 系統分類 得分
K1 K1 1 K1,K2 K2 0.7
K1 K1,Kx 0.85 K1,K2 K1,Kx 0.7
K1 Kx,K1 0.7 K1,K2 Kx,K2 0.55
K1,K2 K1,K2 1 K1,K2 Kx,K1 0.4
K1,K2 K2,K1 0.85 K1,K2 K2,Kx 0.4
K1,K2 K1 0.85   
其中,K1代表專家分類的第一個大類,K2代表專家分類的第二個大類,Kx代表分類系統產生的其它分類結果。
測試量化指標採用準確率(P)、召回率(R)、綜合分類率(F1)及其微平均和宏平均的測試參數(限於篇幅,測試參數的詳細解釋及計算公式請參考SEWM2005公佈的中文網頁分類評測指南,網址:"http://www.cwirf.org/Evaluation/CCT.html")。
4.3 分類算法實現
本文采用高維特徵項結合簡單的VSM相似度計算的分類方法(下稱爲SIM)進行文本分類。分類時採用左向最大匹配法切分,未進行未登錄詞識別和消岐處理。詞頻統計時並未利用HTML位置標記進行加權,只對標題詞語計數乘以3。
訓練時,關鍵詞在類中的權重計算公式採用公式一。
公式二:測試時,關鍵詞在文檔中的權重計算公式(陳克利,2003)
 
其中, , 是類 含有的所有詞的次數之和, 是詞i在類 出現的次數; , 表示文本d含有的所有詞的次數之和, 是詞i在文本d中出現的次數; ,其中m爲類別數; 表示訓練語料中出現詞 的次數,N是訓練語料中所有詞出現次數之和;n >= 1。
公式三:相似度計算,採用夾角餘弦法
 
5 基於關鍵短語的分類結果分析
如上文所述,本分類系統的主要特點是從向量空間模型和概率模型的文本表示入手,試圖提高特徵項之間的獨立性,使用關鍵短語來滿足特徵項的獨立性假設。
一般分詞采用的底表是通用分詞系統的底表(下稱8萬常用詞語表),較少關鍵短語,或者沒有專指性強區別度高的關鍵短語。我們構建的大詞語表包含大量關鍵短語(下稱32萬詞語表)。
我們分別採用8萬常用詞表和32萬詞語表對語料切分,根據第四節的方法訓練得到各自的類特徵向量。基於8萬常用詞表而構建的類特徵向量的特徵項主要是詞,以詞作爲文本表示的特徵;基於32萬詞語表而構建的類特徵向量的特徵項則主要是關鍵短語,以關鍵短語作爲文本表示的特徵。最後採用第四節的方法進行文本分類。
在該對比實驗中,訓練集和測試集、訓練方法和測試方法、測試平臺都一樣,只有作爲文本表示的特徵項(詞和關鍵短語)是變量,我們對比實驗的目的也就是力圖通過文本分類來證明關鍵短語比詞更適合作爲文本表示的特徵。
下表是對比測試的結果。"大類"表示自動分類時只分到大類,"層級分類"表示自動分類時分到詳細的小類,如"經濟_證券資訊_外匯市場"。
表4 特徵項(詞、關鍵短語)對分類影響的總體比較
 大類 層級分類
 微平均 宏平均 微平均 宏平均
 P=R=F P R F1 P=R=F P R F1
詞(8萬) 89.7 81.9 85.3 82.6 77.8 84.1 70.7 73.4
關鍵短語(32萬) 92.8 88.6 88.7 88.1 92.8 89.6 78.1 81
差 3.1 6.7 3.4 5.5 15 5.5 7.4 7.6
    從表中可以發現,大類分類效果微平均只提高了3.1%,宏平均F1值則提高了5.5%。但特徵本身(詞語表)對於層級小類的影響較大,其中宏平均F1值提高了7.6%,微平均則提高了15%。
    對於大類和層級小類的提高幅度的差異,原因分析如下:
在進行大類訓練時,訓練集很大,而進行層級小類訓練時,訓練集則顯著下降,類別之間也不均勻,有的類別訓練文本數只有幾十個。因此,大類訓練時即使只是基於8萬詞語表切分結果,訓練效果也影響不大;而層級小類訓練時,由於受訓練量和特徵粒度的雙重影響,因此差別較大。
當進行大類分類時,由於各大類之間的相似度較小,8萬通用詞表中的特徵項(詞)已經足以區別開大類了。例如,體育類特徵項"球隊、比賽、冠軍……"和經濟類的特徵項"公司、市場、利潤……"都是8萬通用詞表中的詞,是領域通用詞,多是詞,已經足以區分開體育類和經濟類。因此採用短語作爲特徵的分類結果提高幅度並不很大。
但在進行層級分類時,由於同一大類的層級小類之間相似度極大,例如:"體育_武術類_跆拳道"、"體育_武術類_拳擊"、"體育_武術類_摔跤"和"體育_武術類_柔道",層級小類之間共享的特徵詞非常多,這些特徵詞往往只是8萬詞語表中的詞,當進行大類分類時,由於大類之間的相似度較小,這些8萬詞語表中共享的特徵詞已經足以區別開大類了。但在進行層級小類分類時,真正能區分開這些層級小類的特徵詞往往是頻率較低的專業領域詞,即領域專類詞,大多是關鍵短語,8萬詞語表中基本上沒有。
參考文獻:
1 LewisDD, RinguetteM. A comparison of two learning algorithms for text categorization. Proceedings of SIAIR94, 3rd annual symposium on document analysis and information retrieval. LasVegas, NV, 1994.81-93.
2 Y. Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, 1999,1(1/2): 67-88.
3 Yiming Yang, Jan O. Pederson. A comparative study on feature selection in text categorization. Proceedings of ICML-97, 14th international conference on machine learning. Nashville, TN, 1997, 412-420.
4 Yiming Yang, Jan O. Pederson. A re-examination of text categorization methods. Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval: 42-49.
5 MIYAKE A. Working memory: The past, the present, and the future. In: Osaka N. The brain and working memory. Kyoto: Kyoto University Press, 2000: 311-329.
6 ENGLE R W. Working memory capacity as executive attention. Current Directions in Psychological Science, 2002, 11(1): 19-23.
7 劉華. 超大規模分類語料庫構建. 現代圖書情報技術,2006,1:71-73.
8 劉華. 基於語料庫的領域詞語聚類C#實現. 計算機工程與應用,2005,41(36):167-169
9 趙世奇等. 基於類別特徵域的文本分類特徵選擇方法. 中文信息學報,2005,19(6):21-27
10 代六玲. 一種文本分類的在線SVM學習算法. 中文信息學報,2005,19(5):11-16
11 曹素麗等.基於漢字字頻向量的中文文本自動分類系統.山西大學學報(自然科學版),1999,22(2):144-149.
12 陳克利.基於大規模真實文本的平衡語料分析與文本分類方法.Advances in Computation of Oriental Languages.北京:清華大學出版社,2003.
13 周雪忠.中文文本分類特徵表示及分類方法比較研究[C].Advances in Computation of Oriental Languages.北京:清華大學出版社,2003.

劉華,暨南大學華文學院/海外華語研究中心,博士,講師,主要研究領域爲計算語言學,信息檢索。
地址:廣州市廣園東路暨南大學華文學院華文教育系,郵編:510610。
電話:02035577201,13826432689。
E-mail:[email protected][email protected]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章