偶然機會，知道了詞雲，剛開始還只是利用圖悅進行在線的分析，後來發現網上有源碼，所以就轉載過來，大家一起學習。

原

wordcloud的基本使用

github:https://github.com/amueller/word_cloud  

官方地址:https://amueller.github.io/word_cloud/

來一個例子：
[python] view plain copy
print?
1. ”“”
2. @author:FLY
3. @software:PyCharm
4. @time:2017/08/24
5. ”“”
6. import pickle
7. from os import path
8. import jieba
9. import matplotlib.pyplot as plt
10. from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
11. text = ”
12. with open(’人工智能及應用.txt’, ‘r’, encoding=‘utf8’) as fin:
13. for line in fin.readlines():
14. line = line.strip(’\n’)
15. # sep’.join（seq）以sep作爲分隔符，將seq所有的元素合併成一個新的字符串
16. text += ’ ’.join(jieba.cut(line))
17. backgroud_Image = plt.imread(’man.jpg’)
18. print(‘加載圖片成功！’)
19. ””’設置詞雲樣式”’
20. wc = WordCloud(
21. background_color=’white’,# 設置背景顏色
22. mask=backgroud_Image,# 設置背景圖片
23. font_path=’C:\Windows\Fonts\STZHONGS.TTF’, # 若是有中文的話，這句代碼必須添加，不然會出現方框，不出現漢字
24. max_words=2000, # 設置最大現實的字數
25. stopwords=STOPWORDS,# 設置停用詞
26. max_font_size=150,# 設置字體最大值
27. random_state=30# 設置有多少種隨機生成狀態，即有多少種配色方案
28. )
29. wc.generate_from_text(text)
30. print(‘開始加載文本’)
31. #改變字體顏色
32. img_colors = ImageColorGenerator(backgroud_Image)
33. #字體顏色爲背景圖片的顏色
34. wc.recolor(color_func=img_colors)
35. # 顯示詞雲圖
36. plt.imshow(wc)
37. # 是否顯示x軸、y軸下標
38. plt.axis(’off’)
39. plt.show()
40. # 獲得模塊所在的路徑的
41. d = path.dirname(file)
42. # os.path.join()：將多個路徑組合後返回
43. wc.to_file(path.join(d, ”h11.jpg”))
44. print(‘生成詞雲成功!’)
```
”“” 

@author:FLY 

@software:PyCharm 

@time:2017/08/24 

“”” 

import pickle 

from os import path 

import jieba 

import matplotlib.pyplot as plt 

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator 

text = ” 

with open(‘人工智能及應用.txt’, ‘r’, encoding=’utf8’) as fin: 

    for line in fin.readlines(): 

        line = line.strip(‘\n’)
```

sep’.join（seq）以sep作爲分隔符，將seq所有的元素合併成一個新的字符串

text += ' '.join(jieba.cut(line))
backgroud_Image = plt.imread('man.jpg')
print('加載圖片成功！')
'''設置詞雲樣式'''
wc = WordCloud(
background_color='white',# 設置背景顏色
mask=backgroud_Image,# 設置背景圖片
font_path='C:\Windows\Fonts\STZHONGS.TTF', # 若是有中文的話，這句代碼必須添加，不然會出現方框，不出現漢字
max_words=2000, # 設置最大現實的字數
stopwords=STOPWORDS,# 設置停用詞
max_font_size=150,# 設置字體最大值
random_state=30# 設置有多少種隨機生成狀態，即有多少種配色方案
)
wc.generate_from_text(text)
print('開始加載文本')

改變字體顏色

img_colors = ImageColorGenerator(backgroud_Image)

字體顏色爲背景圖片的顏色

wc.recolor(color_func=img_colors)

顯示詞雲圖

plt.imshow(wc)

是否顯示x軸、y軸下標

plt.axis('off')
plt.show()

獲得模塊所在的路徑的

d = path.dirname(file)

os.path.join()：將多個路徑組合後返回

wc.to_file(path.join(d, "h11.jpg"))
print('生成詞雲成功!')

運行結果：

生成詞雲方法

word_cloud 生成詞雲有兩個方法。from text 和 from frequencies 。即文本生成和頻率生成，每一個都有對應的函數可以使用

[python] view plain copy

print?

generate(text) Generate wordcloud from text.
generate_from_text(text) Generate wordcloud from text.
generate_from_frequencies Create a word_cloud from words and frequencies.
fit_words Create a word_cloud from words and frequencies.

generate(text)      Generate wordcloud from text. 

generate_from_text(text)    Generate wordcloud from text. 

generate_from_frequencies      Create a word_cloud from words and frequencies. 

fit_words      Create a word_cloud from words and frequencies.

wordcloud包的基本用法
[python] view plain copy
print?
1. class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2,
2. ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None,
3. max_words=200, min_font_size=4, stopwords=None, random_state=None,background_color=‘black’,
4. max_font_size=None, font_step=1, mode=‘RGB’, relative_scaling=0.5, regexp=None,
5. collocations=True,colormap=None, normalize_plurals=True)
```
class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2,  

ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None,  

max_words=200, min_font_size=4, stopwords=None, random_state=None,background_color='black',  

max_font_size=None, font_step=1, mode='RGB', relative_scaling=0.5, regexp=None,  

collocations=True,colormap=None, normalize_plurals=True)
```

這是wordcloud的所有參數，下面具體介紹一下各個參數：

font_path : string //字體路徑，需要展現什麼字體就把該字體路徑+後綴名寫上，如：font_path = '黑體.ttf'
width : int (default=400) //輸出的畫布寬度，默認爲400像素
height : int (default=200) //輸出的畫布高度，默認爲200像素
prefer_horizontal : float (default=0.90) //詞語水平方向排版出現的頻率，默認 0.9 （所以詞語垂直方向排版出現頻率爲 0.1 ）
mask : nd-array or None (default=None) //如果參數爲空，則使用二維遮罩繪製詞雲。如果 mask 非空，設置的寬高值將被忽略，遮罩形狀被 mask 取代。
除全白（#FFFFFF）的部分將不會繪製，其餘部分會用於繪製詞雲。如：bg_pic = imread('讀取一張圖片.png')，
背景圖片的畫布一定要設置爲白色（#FFFFFF），然後顯示的形狀爲不是白色的其他顏色。可以用ps工具將自己要顯示的形狀複製到一個純白色的畫布上再保存，就ok了。
scale : float (default=1) //按照比例進行放大畫布，如設置爲1.5，則長和寬都是原來畫布的1.5倍。
min_font_size : int (default=4) //顯示的最小的字體大小
font_step : int (default=1) //字體步長，如果步長大於1，會加快運算但是可能導致結果出現較大的誤差。
max_words : number (default=200) //要顯示的詞的最大個數
stopwords : set of strings or None //設置需要屏蔽的詞，如果爲空，則使用內置的STOPWORDS
background_color : color value (default=”black”) //背景顏色，如background_color='white',背景顏色爲白色。
max_font_size : int or None (default=None) //顯示的最大的字體大小
mode : string (default=”RGB”) //當參數爲“RGBA”並且background_color不爲空時，背景爲透明。
relative_scaling : float (default=.5) //詞頻和字體大小的關聯性
color_func : callable, default=None //生成新顏色的函數，如果爲空，則使用 self.color_func
regexp : string or None (optional) //使用正則表達式分隔輸入的文本
collocations : bool, default=True //是否包括兩個詞的搭配
colormap : string or matplotlib colormap, default=”viridis” //給每個單詞隨機分配顏色，若指定color_func，則忽略該方法。
fit_words(frequencies) //根據詞頻生成詞雲【frequencies，爲字典類型】
generate(text) //根據文本生成詞雲
generate_from_frequencies(frequencies[, ...]) //根據詞頻生成詞雲
generate_from_text(text) //根據文本生成詞雲
process_text(text) //將長文本分詞並去除屏蔽詞（此處指英語，中文分詞還是需要自己用別的庫先行實現，使用上面的 fit_words(frequencies) ）
recolor([random_state, color_func, colormap]) //對現有輸出重新着色。重新上色會比重新生成整個詞雲快很多。
to_array() //轉化爲 numpy array
to_file(filename) //輸出到文件

簡要講下幾個會影響圖像清晰問題的WordCloud的參數：

mask：遮罩圖，字的大小布局和顏色都會依據遮罩圖生成。其實理論上這對字大小和清晰程度的影響不大，
但是遮罩圖色和背景色background_color如果易混淆，則可能是一個導致看起來不清晰的因素；
另外遮罩圖自身各個顏色之間的對比不強烈，也可能使圖看起來層次感不夠。
比如，一些圖明度比較高，再加上背景白色，有可能導致字色太淺（背景色background_color又是白色）於是看起來不夠“清晰”。
background_color：背景色，默認黑。
這個本來其實也不怎麼影響清晰度，但是，就像之前在mask中提到的，如果遮罩圖像顏色過淺、背景設置白色，
可能導致字看起來“不清晰”。而實際上，我對一個淺色遮罩圖分別用白、黑兩種背景色後發現，
黑色背景的強烈對比之下會有若干很淺也很小的詞浮現出來，而之前因背景色、字色過於相近而幾乎無法用肉眼看出這些詞。
mode：默認“RGB”。根據說明文檔，如果想設置透明底色的雲詞圖，那麼可以設置background_color=None, mode="RGBA"
但是！！！實際中我嘗試設置透明背景色並沒有成功過！
當我選取的遮罩圖是白色底時，如果background_color設置爲"white"或"black"時，生成的雲詞確實是對應的“白色”“黑色”；
但是按照上述參數設置透明色時，結果出來依然是白色。
當我選取的遮罩圖是透明底時，那麼不管我background_color設置爲"white"或"black"，還是None加上mode="RGBA"，
結果都是把背景部分當做黑色圖塊，自動匹配黑色的字！——也就是並沒有實現透明底的雲詞。
誰如果實現了透明底色的方案，歡迎給我留言。目前這個疑惑我打算先不研究了，放到以後再看。
max_font_size：最大字號。源文件中也有講到，圖的生成會依據最大字號等因素去自動判斷詞的佈局。
經測試，哪怕同一個圖像，只要圖本身尺寸不一樣（比如我把一個300×300的圖拉大到600×600再去當遮罩），那麼同樣的字號也是會有不同的效果。
原理想想也很自然，字號決定了字的尺寸，而圖的尺寸變了以後，最大字相對於圖的尺寸比例自然就變了。
所以，需要根據期望顯示的效果，去調整最大字號參數值。
min_font_size：最小字號。不設置的情況下，默認是4。
嘗試了設置比4大的字號，例如8、10，結果就是原本小於設定值且大於4號的詞都直接不顯示了，其它內容和未設置該值時都一樣。
relative_scaling：表示詞頻和雲詞圖中字大小的關係參數，默認0.5。
爲0時，表示只考慮詞排序，而不考慮詞頻數；爲1時，表示兩倍詞頻的詞也會用兩倍字號顯示。
scale：根據說明文檔，當雲詞圖很大的，加大該值會比使用更大的圖更快，但值越高也會越慢（計算更復雜）。
默認值是1。實際測試中，更大的值，確實輸出圖像看起來更精細（較小較淺的詞會顏色更重，也感覺清楚，大的詞差異不明顯）。
不過，可能由於我選的圖不大、詞也沒有很多，所以差距並沒有很大，縮小排列一下就基本上辨別不出多少差別了。
以上參考來源： http://blog.csdn.net/heyuexianzi/article/details/76851參考地址https://blog.csdn.net/fly910905/article/details/77763086/

wordcloud的基本使用 wordcloud的基本使用

wordcloud的基本使用

sep’.join（seq）以sep作爲分隔符，將seq所有的元素合併成一個新的字符串

改變字體顏色

字體顏色爲背景圖片的顏色

顯示詞雲圖

是否顯示x軸、y軸下標

獲得模塊所在的路徑的

os.path.join()：將多個路徑組合後返回

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

Exception in thread "main" java.lang.OutOfMemoryError:Java heap space

wordcloud的基本使用 wordcloud的基本使用

藍橋杯字符串跳步

browser-sync調試，顯示“Cannot GET /”

node.js+前端調試工具browser-sync安裝與使用說明

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

wordcloud的基本使用 wordcloud的基本使用

wordcloud的基本使用

sep’.join（seq）以sep作爲分隔符，將seq所有的元素合併成一個新的字符串

改變字體顏色

字體顏色爲背景圖片的顏色

顯示詞雲圖

是否顯示x軸、y軸下標

獲得模塊所在的路徑的

os.path.join()： 將多個路徑組合後返回

os.path.join()：將多個路徑組合後返回