【自然語言處理】英文開源工具彙總()

本博客主要是對網絡上的一些關於英文自然語言處理開源工具的博客進行整理、彙總,如果有涉及到您的知識產權等,請聯繫本人已進行修改,也歡迎廣大讀者進行指正以及補充。

本博客將盡量從工具的使用語言、功能等方面進行彙總介紹。

1 斯坦福大學

語言:Java

功能:分詞、詞性標註、命名實體識別、語法解析、分類。

介紹:Stanford NLP Group是斯坦福大學自然語言處理的團隊,開發了多個NLP工具,官網網址。由於該團隊將該開源分爲多個子模塊,以下將逐一進行介紹。

1.1 Stanford Word Segmenter

介紹:採用CRF(條件隨機場)算法進行分詞,也是基於Java開發的,同時可以支持中文和Arabic,官方要求Java版本1.6以上,推薦內存至少1G。下載地址

示例代碼:
[java] view plain copy
  1. //設置分詞器屬性。    
  2.    Properties props = new Properties();    
  3. //字典文件地址,可以用絕對路徑,如d:/data    
  4.    props.setProperty("sighanCorporaDict""data");    
  5. //字典壓縮包地址,可以用絕對路徑    
  6.    props.setProperty("serDictionary","data/dict-chris6.ser.gz");    
  7. //輸入文字的編碼;    
  8.    props.setProperty("inputEncoding""UTF-8");    
  9.    props.setProperty("sighanPostProcessing""true");    
  10. //初始化分詞器,    
  11.    CRFClassifier classifier = new CRFClassifier(props);    
  12. //從持久化文件中加載分詞器設置;    
  13.    classifier.loadClassifierNoExceptions("data/ctb.gz", props);    
  14.    // flags must be re-set after data is loaded    
  15.    classifier.flags.setProperties(props);    
  16. //分詞    
  17.    List words = classifier.segmentString("語句內容");  

1.2 Stanford POS Tagger

介紹:採用Java編寫的面向英文、中文、法語、阿拉伯語、德語的命名實體識別工具,下載地址

1.3 Stanford Named Entity Recognizer

介紹:採用條件隨機場模型的命名實體工具,下載地址

1.4 Stanford Parser

介紹:進行語法分析的工具,支持英文、中文、阿拉伯文和法語。下載地址

1.5 Stanford Classifier

介紹:採用Java編寫的分類器,下載地址

最後附上關於中文分詞器性能比較的一篇文章(2014.05.27更新)

1.6 Stanford CoreNLP

功能:分詞、詞性標註、命名實體識別、語法分析

介紹:採用Java編寫的面向英文的處理工具,下載網址

用戶評價:採用它進行英語單詞的詞性還原,具體應用詳見文章《採用Stanford CoreNLP實現英文單詞詞形還原》




















發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章