目前常用的自然語言處理開源項目/開發包大彙總

中文主要有：NLTK，FoolNLTK，HanLP（java版本），pyhanlp（python版本），Ansj，THULAC，結巴分詞，FNLP，哈工大LTP，中科院ICTCLAS分詞，GATE，SnowNLP，東北大學NiuTrans，NLPIR，；

英文主要有：NLTK，Genism，TextBlob，Stanford NLP，Spacy。英文的開源NLP工具主要參見StackoverFlow-java or python for nlp

相關問題&文章：

（1）如何用 Python 中的 NLTK 對中文進行分析和處理？這個問題下的回答也詳說了其他的語音處理包

（2）中文分詞項目總結

詳細介紹

HanLP：HanLP是由一系列模型與算法組成的Java工具包，目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

開發語言：Java

網址：hankcs/HanLP

開發機構：大快搜索

協議：Apache-2.0

功能：非常多，主要有中文分詞，詞性標註，命名實體識別，關鍵詞提取，自動摘要，短語提取，拼音轉換，簡繁轉換，文本推薦，依存句法分析，文本分類：情感分析，word2vec，語料庫工具

活躍度：github star 超過4千5，近期（201711）仍在保持更新

Ansj中文分詞：一個基於n-Gram+CRF+HMM的中文分詞的java實現.

開發語言：Java

網址：NLPchina/ansj_seg

協議：Apache License 2.0

功能：中文分詞. 中文姓名識別 . 用戶自定義詞典,關鍵字提取，自動摘要，關鍵字標記

性能：分詞速度達到每秒鐘大約200萬字左右（mac air下測試），準確率能達到96%以上

活躍度：github star 數量超過3500，近期（2017.11）仍在保持更新

THULAC：一個高效的中文詞法分析工具包，具有中文分詞和詞性標註功能。

開發語言：

網址：THULAC：一個高效的中文詞法分析工具包

開發機構：清華大學自然語言處理與社會人文計算實驗室

協議：研究目的免費開放源代碼，商用目的需洽談許可證

功能：中文分詞和詞性標註

感謝石墨用戶@hain 的補充

Synonyms: 中文近義詞工具包

開發語言：Python

開發機構：個人

協議：MIT

功能：獲取近義詞集合，句子相似度計算

性能：見網站

活躍度：～1k Star

結巴分詞：Python中文分詞組件

開發語言：Python

網址：fxsjy/jieba

開發機構：

協議：MIT授權協議

功能：中文分詞

FNLP：FNLP主要是爲中文自然語言處理而開發的工具包，也包含爲實現這些任務的機器學習算法和數據集。

開發語言：

網址： FudanNLP/fnlp

開發機構：復旦

協議：LGPL3.0許可證。

功能：信息檢索：文本分類新聞聚類；中文處理：中文分詞詞性標註實體名識別關鍵詞抽取依存句法分析時間短語識別；結構化學習：在線學習層次分類聚類

Genism：Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.

開發語言：Python

網址：RaRe-Technologies/gensim

協議：LGPL-2.1 license

活躍度：github star數超過五千，近期（201711）仍在更新

TextBlob：Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.

開發語言：Python

網址：sloria/TextBlob

功能：情感分析、詞性標註、翻譯等

活躍度：github star 超過4千，近期（201711）仍在更新

Spacy：spaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.

開發語言：python

協議：MIT協議

功能：功能很多，如tagging, parsing and named entity recognition等

性能：功能強大，支持二十多種語言（然而目前還不支持中文，可以閱讀官方文檔瞭解更多信息https://spacy.io/usage/），號稱是工業級強度的Python NLP工具包，區別於學術性質更濃的Python NLTK

活躍度：star 超過7千，近期（201711）仍非常活躍

作者：鑑津Jackie

目前常用的自然語言處理開源項目/開發包大彙總

Android啓動過程-萬字長文(Android14)

【SQL進階】CASE語句的使用

optional install error: Error: Unsupported URL Type: npm:vue-loader@^16.1.0

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

chromedriver版本

kbgressdb之數據結構V0.2

Spring MVCD框架中調用HanLP分詞的方法

部分常用分詞工具使用整理

HanLP-實詞分詞器詳解

三天拿到阿里、頭條跟美團的offer，我做了這些準備

華爲系統早已開始研發，爲何現在才準備推出？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結