Python數據挖掘05--詞雲(wordcloud)找出老九門中熱門詞語

注意
window系統安裝wordcloud模塊時可能會出現需要安裝C++等錯誤,此時使用https://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy網站的whl自己進行安裝將不會再報錯


資料中所用到老九門文件和圖片,點擊下載

import wordcloud as wc  # 詞雲模塊
import matplotlib.pylab as plb
import pandas as pda
import jieba  # jieba模塊 分解詞語
from PIL import Image
from numpy import array


path = "C:/Users/Administrator/Desktop/老九門.txt"
data = open(path, "r", encoding="gbk").read()  # 讀取txt小說文件 
cutdata = jieba.cut(data)  # 將文本分割成詞語

alldata = "" 
for i in cutdata:  # 詞語進行循環拼接
    alldata = alldata + " " + str(i)


font = r"C:\WINDOWS\Fonts\simhei.ttf"  
# 打開圖片
cat = Image.open("C:/Users/Administrator/Desktop/cat.png")
catarray = array(cat)  # 將讀取的圖片轉化成數組

# 使用WordCloud方法
oldwc = wc.WordCloud(mask=catarray, collocations=False,  # mask展示形狀,background_color背景顏色
                     font_path=font, background_color="white"
                     ).generate(data)  
plb.imshow(oldwc)
plb.show()

最終展示結果
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章