文本分類

概覽

  自動文本分類(Automatic Text Categorization),或者簡稱爲文本分類,是指計算機將一篇文章歸於預先給定的某一類或某幾類的過程。

  文本分類是指按照預先定義的主題類別,爲文檔集合中的每個文檔確定一個類別.文本分類是文本挖掘的一個重要內容。

  所謂文本分類,是指對所給出的文本,給出預定義的一個或多個類別標號,對文本進行準確、高效的分類.它是許多數據管理任務的重要組成部分。

  文本分類是指按預先指定的標準對文檔進行歸類這樣用戶不僅可以方便地瀏覽文檔而且可以通過類別來查詢所需的文檔。

  文本分類是指在給定的分類體系下,根據文語義元是統計語義方法中的原子,是不可分本的內容自動確定文本類別的過程.當前的文本割的最小單位,在文本分類中語義元是詞。

  文本分類(Text categorization)是指在給定分類體系下,根據文本內容自動確定文本類別的過程.20世紀90年代以前,占主導地位的文本分類方法一直是基於知識工程的分類方法,即由專業人員手工進行分類.人工分類非常費時,效率非常低.90年代以來,衆多的統計方法和機器學習方法應用於自動文本分類,文本分類技術的研究引起了研究人員的極大興趣.目前在國內也已經開始對中文文本分類進行研究,並在信息檢索、Web文檔自動分類、數字圖書館、自動文摘、分類新聞組、文本過濾、單詞語義辨析以及文檔的組織和管理等多個領域得到了初步的應用.

歷史

  文本分類的研究可以追溯到上世紀六十年代,早期的文本分類主要是基於知識工程(Knowledge Engineering),通過手工定義一些規則來對文本進行分類,這種方法費時費力,且必須對某一領域有足夠的瞭解,才能寫出合適的規則。到上世紀九十年代,隨着網上在線文本的大量涌現和機器學習的興起,大規模的文本(包括網頁)分類和檢索重新引起研究者的興趣。文本分類系統首先通過在預先分類好的文本集上訓練,建立一個判別規則或分類器,從而對未知類別的新樣本進行自動歸類。大量的結果表明它的分類精度比得上專家手工分類的結果,並且它的學習不需要專家干預,能適用於任何領域的學習,使得它成爲目前文本分類的主流方法。

  1971 年,Rocchio 提出了在用戶查詢中不斷通過用戶的反饋來修正類權重向量,來構成簡單的線性分類器。Mark vanUden、Mun等給出了其他的一些修改權重的方法。1979 年,van Rijsbergen對信息檢索領域的研究做了系統的總結,裏面關於信息檢索的一些概念,如向量空間模型(Vector Space Model)和評估標準如準確率(Precision)、回召率(Recall),後來被陸續地引入文本分類中,文中還重點地討論了信息檢索的概率模型,而後來的文本分類研究大多數是建立在概率模型的基礎上。

 1992 年,Lewis 在他的博士論文《Representation and Learning in Information Retrieval》中系統地介紹了文本分類系統實現方法的各個細節,並且在自己建立的數據集Reuters22173(後來去掉一些重複的文本修訂爲Reuters21578數據集)上進行了測試。這篇博士論文是文本分類領域的經典之作。後來的研究者在特徵的降維和分類器的設計方面作了大量的工作,Yiming Yang 對各種特徵選擇方法,包括信息增益(Information Gain)、互信息(Mutual Information)、統計量等,從實驗上進行了分析和比較。她在1997年還對文獻上報告的幾乎所有的文本分類方法進行了一次大閱兵,在公開數據集Reuters21578和OHSUMED上比較了各個分類器的性能,對後來的研究起到了重要的參考作用。

1995 年,Vipnik 基於統計理論提出了支持矢量機(Support Vector Machine)方法,基本思想是尋找最優的高維分類超平面。由於它以成熟的小樣本統計理論作爲基石,因而在機器學習領域受到廣泛的重視。Thorsten Joachims第一次將線性核函數的支持矢量機用於文本分類,與傳統的算法相比,支持矢量機在分類性能上有了非常大的提高,並且在不同的數據集上顯示了算法的魯棒性。至今,支持矢量機的理論和應用仍是研究的熱點。

在支持矢量機出現的同時,1995年及其後,以Yoav Freund 和Robert E. Schapire發表的關於AdaBoost的論文爲標誌,機器學習算法的研究出現了另一個高峯。RobertE.Schapire從理論和試驗上給出AdaBoost算法框架的合理性。其後的研究者在這個框架下給出了許多的類似的Boosting算法,比較有代表性的有Real AdaBoost,Gentle Boost,LogitBoost等。這些Boosting算法均己被應用到文本分類的研究中,並且取得和支持矢量機一樣好的效果。

  總而言之,儘管機器學習理論對於文本分類的研究起了不可低估的作用,在這之前文本分類的研究曾一度處於低潮,但是文本分類的實際應用和它自身的固有的特性給機器學習提出新的挑戰,這使得文本分類的研究仍是信息處理領域一個開放的、重要的研究方向。

中文文本分類

  相比於英文文本分類,中文文本分類的一個重要的差別在於預處理階段:中文文本的讀取需要分詞,不像英文文本的單詞那樣有空格來區分。從簡單的查詞典的方法,到後來的基於統計語言模型的分詞方法,中文分詞的技術已趨於成熟。比較有影響力的當屬中國科學院計算所開發的漢語詞法分析系統ICTCLAS,現已公開發布供中文文本分類的研究使用。

  在很長一段時間內,中文文本分類的研究沒有公開的數據集,使得分類算法難以比較。現在一般採用的中文測試集有:北京大學建立的人民日報語料庫、清華大學建立的現代漢語語料庫等。

  其實一旦經過預處理將中文文本變成了樣本矢量的數據矩陣,那麼隨後的文本分類過程和英文文本分類相同,也就是隨後的文本分類過程獨立於語種。因此,當前的中文文本分類主要集中在如何利用中文本身的一些特徵來更好地表示文本樣本。

關鍵技術及方法

  分詞技術

  對於中文文本而言,因爲詞與詞之間沒有明顯的切分標誌,所以首先需要對中文文本進行分詞.現在的分詞方法雖然有多種,但歸納起來不外乎兩種:一類是機械式分詞法,一般以分詞詞典爲依據,通過文檔中的漢字串和詞表中的詞逐一匹配來完成詞的切分.另一類是理解式分詞法,即利用漢語的語法知識和語義知識以及心理學知識進行分詞,需要建立分詞數據庫、知識庫和推理庫.後者可謂是理想的方法,但在語法分析、語義分析乃至篇章理解還沒有得到解決之前,其分詞系統主要採用機械分詞法,或者介於二者之間的某種分詞方法。

  文本表示

  計算機並不具有人類的智慧,不能讀懂文字,所以必須把文本轉化成計算機能夠理解的形式,即進行文本表示.目前文本表示模型主要是Gerard Salton和McGill於1969年提出的向量空間模型(VSM)。向量空間模型的基本思想是把文檔簡化爲特徵項的權重爲分量的向量表示:(w1,w2,…,wn),其中wi爲第i個特徵項的權重,一般選取詞作爲特徵項,權重用詞頻表示.詞頻分爲絕對詞頻和相對詞頻.絕對詞頻,即用詞在文本中出現的頻率表示文本;相對詞頻,即爲歸一化的詞頻,其計算方法主要運用TF-IDF公式。

  除了向量空間模型外,還有概率模型.概率模型也考慮詞與詞的相關性,把文本集中的文檔分爲相關文檔和無關文檔.以數學理論中的概率論爲原理,通過賦予特徵詞某個概率值來表示這些詞在相關文檔和無關文檔之間出現的概率,然後計算文檔間相關的概率,系統據此概率做出決策。

  特徵選擇與特徵抽取

  由於文本數據的半結構化甚至於無結構化的特點,當用特徵向量對文檔進行表示的時候,特徵向量通常會達到幾萬維甚至於幾十萬維.尋求一種有效的特徵降維方法,降低特徵空間的維數,提高分類的效率和精度,成爲文本自動分類中至關重要的問題.降維技術總的可以分爲兩類:特徵選擇和特徵抽取。

  文本分類算法

  研究文本自動分類的核心問題是如何構造分類函數(分類器),分類函數需要通過某種算法進行學習獲得.分類是重要的數據挖掘方法,在文本分類中,幾乎存在着和一般分類同樣多的方法.在衆多的文本分類算法中,重點介紹了Rocchio算法、樸素貝葉斯分類算法、K-近鄰算法、決策樹算法、神經網絡算法和支持向量機算法。

From: http://wiki.52nlp.cn/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章