目前常用的自然語言處理開源項目/開發包大彙總


中文主要有NLTKFoolNLTKHanLPjava版本),pyhanlppython版本),AnsjTHULAC,結巴分詞,FNLP,哈工大LTP,中科院ICTCLAS分詞,GATESnowNLP,東北大學NiuTransNLPIR,;

英文主要有NLTKGenismTextBlobStanford NLPSpacy。英文的開源NLP工具主要參見StackoverFlow-java or python for nlp

相關問題&文章:

1)如何用 Python 中的 NLTK 對中文進行分析和處理? 這個問題下的回答也詳說了其他的語音處理包

2)中文分詞項目總結

詳細介紹

HanLPHanLP是由一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

開發語言:Java

網址:hankcs/HanLP

開發機構:大快搜索

協議:Apache-2.0

功能:非常多,主要有中文分詞,詞性標註,命名實體識別,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析,文本分類:情感分析,word2vec,語料庫工具

活躍度:github star 超過45,近期(201711)仍在保持更新

 

Ansj中文分詞:一個基於n-Gram+CRF+HMM的中文分詞的java實現.

開發語言:Java

網址:NLPchina/ansj_seg

協議:Apache License 2.0

功能:中文分詞. 中文姓名識別 . 用戶自定義詞典,關鍵字提取,自動摘要,關鍵字標記

性能:分詞速度達到每秒鐘大約200萬字左右(mac air下測試),準確率能達到96%以上

活躍度:github star 數量超過3500,近期(2017.11)仍在保持更新

 

THULAC:一個高效的中文詞法分析工具包,具有中文分詞和詞性標註功能。

開發語言:

網址:THULAC:一個高效的中文詞法分析工具包

開發機構:清華大學自然語言處理與社會人文計算實驗室

協議:研究目的免費開放源代碼,商用目的需洽談許可證

功能:中文分詞和詞性標註

 

感謝石墨用戶@hain 的補充

Synonyms: 中文近義詞工具包

開發語言:Python

開發機構:個人

協議:MIT

功能:獲取近義詞集合,句子相似度計算

性能:見網站

活躍度:~1k Star

 

結巴分詞:Python中文分詞組件

開發語言:Python

網址:fxsjy/jieba

開發機構:

協議:MIT授權協議

功能:中文分詞

FNLPFNLP主要是爲中文自然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。

開發語言:

網址: FudanNLP/fnlp

開發機構:復旦

協議:LGPL3.0許可證。

功能:信息檢索: 文本分類 新聞聚類;中文處理: 中文分詞 詞性標註 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別;結構化學習: 在線學習 層次分類 聚類

 

GenismGensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.

開發語言:Python

網址:RaRe-Technologies/gensim

協議:LGPL-2.1 license

活躍度:github star數超過五千,近期(201711)仍在更新

 

TextBlobSimple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.

開發語言:Python

網址:sloria/TextBlob

功能:情感分析、詞性標註、翻譯等

活躍度:github star 超過4千,近期(201711)仍在更新

 

SpacyspaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.

開發語言:python

協議:MIT協議

功能: 功能很多,如tagging, parsing and named entity recognition

性能:功能強大,支持二十多種語言(然而目前還不支持中文,可以閱讀官方文檔瞭解更多信息https://spacy.io/usage/),號稱是工業級強度的Python NLP工具包,區別於學術性質更濃的Python NLTK

活躍度:star 超過7千,近期(201711)仍非常活躍

 

作者:鑑津Jackie

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章