幾行代碼教你使用python製作詞雲(二)
上一篇文章已經給大家介紹了中文詞雲的簡單製作,本章我將引入一個新的知識點——jieba中分分詞,它能給文章的長句子分成一個一個的詞語,變得更關鍵。
1.準備數據
我這裏的數據還是上一篇的我不是藥神的影評數據
2.代碼分析
導入詞雲製作庫和中分分詞jieba庫(安裝方法就不介紹了)
#導入詞雲製作庫和中分分詞jieba庫
import jieba
import wordcloud
構建詞雲對象
#構建詞雲對象
w = wordcloud.WordCloud(width=1000,
height=700,
background_color='white',
font_path='msyh.ttc')
對文件進行結巴分詞(高級一點的可以添加停用詞,如果大家需要,後續寫停用詞的詳細用法)
#對文件進行結巴分詞
file = open('./data/WordCloud.txt',encoding='utf-8') #載入數據
text = file.read()
textlist = jieba.lcut(text)
str = " ".join(textlist)
將str傳入geerate()方法
#將str傳入geerate()方法
w.generate(str)
將詞雲效果圖導出
#將詞雲效果圖導出
w.to_file('./img/output3.png')
控制檯顯示圖像
import matplotlib.pyplot as plt #繪圖
plt.imshow(w , interpolation="bilinear")
plt.axis("off")
效果圖