中文文本分析工具總結

本篇博客主要介紹幾個中文文本分析的工具。

1 百度API

百度智能雲上將自然語言處理分成了四個模塊,如下圖所示,分別爲語言處理基礎技術,語言處理應用技術,智能對話定製平臺,文本審覈。每一個模塊都有很多功能,大家可以自行進入網頁進行查看,根據自己的需求選取。
在這裏插入圖片描述
百度API 的使用方法(Python調用)前邊已經整理好,參考網址:https://blog.csdn.net/weixin_40678266/article/details/105483610

2 SnowNLP

SnowNLP是Python分析中文文本的包。功能很豐富,包括中文分詞,詞性標註,情感分析,文本分類,轉換成拼音,繁體轉簡體,提取文本關鍵詞及摘要,信息衡量(TF-IDF),文本相似等。
具體的使用可以參考document,這裏要提一下,SnowNLP的分詞功能是不如jieba的,舉例如下:

#Snownlp分詞對比jieba分詞
from snownlp import SnowNLP
import jieba

text_jieba = "用起來不太好"
s_text = SnowNLP(text_jieba)
print(s_text.words)
jieba.lcut(text_jieba)

#result of snownlp:['用', '起來', '不', '太', '好']
#result of jiba ['用', '起來', '不太好']
#jieba的分詞功能要比snownlp強大

3 TextMind(文心)

文心是中科院心理研究所研發的一款針對簡體中文的文本分析工具,對於不會編程的人來說非常實用,其中一共有102個文本特徵可以自由選擇。文心可以自行從官網下載使用。
官方網址:http://ccpl.psych.ac.cn/textmind/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章