中文文本分析工具总结

本篇博客主要介绍几个中文文本分析的工具。

1 百度API

百度智能云上将自然语言处理分成了四个模块,如下图所示,分别为语言处理基础技术,语言处理应用技术,智能对话定制平台,文本审核。每一个模块都有很多功能,大家可以自行进入网页进行查看,根据自己的需求选取。
在这里插入图片描述
百度API 的使用方法(Python调用)前边已经整理好,参考网址:https://blog.csdn.net/weixin_40678266/article/details/105483610

2 SnowNLP

SnowNLP是Python分析中文文本的包。功能很丰富,包括中文分词,词性标注,情感分析,文本分类,转换成拼音,繁体转简体,提取文本关键词及摘要,信息衡量(TF-IDF),文本相似等。
具体的使用可以参考document,这里要提一下,SnowNLP的分词功能是不如jieba的,举例如下:

#Snownlp分词对比jieba分词
from snownlp import SnowNLP
import jieba

text_jieba = "用起来不太好"
s_text = SnowNLP(text_jieba)
print(s_text.words)
jieba.lcut(text_jieba)

#result of snownlp:['用', '起来', '不', '太', '好']
#result of jiba ['用', '起来', '不太好']
#jieba的分词功能要比snownlp强大

3 TextMind(文心)

文心是中科院心理研究所研发的一款针对简体中文的文本分析工具,对于不会编程的人来说非常实用,其中一共有102个文本特征可以自由选择。文心可以自行从官网下载使用。
官方网址:http://ccpl.psych.ac.cn/textmind/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章