幾行代碼教你使用python製作詞雲(二)

幾行代碼教你使用python製作詞雲(二)

上一篇文章已經給大家介紹了中文詞雲的簡單製作,本章我將引入一個新的知識點——jieba中分分詞,它能給文章的長句子分成一個一個的詞語,變得更關鍵。

1.準備數據
我這裏的數據還是上一篇的我不是藥神的影評數據

2.代碼分析
導入詞雲製作庫和中分分詞jieba庫(安裝方法就不介紹了)

#導入詞雲製作庫和中分分詞jieba庫
import jieba
import wordcloud

構建詞雲對象

#構建詞雲對象
w = wordcloud.WordCloud(width=1000,
                        height=700,
                        background_color='white',
                        font_path='msyh.ttc')

對文件進行結巴分詞(高級一點的可以添加停用詞,如果大家需要,後續寫停用詞的詳細用法)

#對文件進行結巴分詞
file = open('./data/WordCloud.txt',encoding='utf-8') #載入數據
text = file.read()
textlist = jieba.lcut(text)
str = " ".join(textlist)

將str傳入geerate()方法

#將str傳入geerate()方法
w.generate(str)

將詞雲效果圖導出

#將詞雲效果圖導出
w.to_file('./img/output3.png')

控制檯顯示圖像

import matplotlib.pyplot as plt  #繪圖
plt.imshow(w , interpolation="bilinear")
plt.axis("off")

效果圖

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章