【Python行業分析5】BOSS直聘招聘信息獲取之熱詞圖wordcloud

原創

2020-06-13 12:12

wordcloud 是 Python中的小詞雲生成器。

填充所有可用空間
能夠使用任意背景
具有高效的實現方式，可以輕鬆對其進行修改

wordcloud依賴於numpy和pillow。
支持Python 2.7、3.4、3.5、3.6和3.7。
pip3 install wordcloud進行安裝

from wordcloud import WordCloud
import csv


def createImage(file_name):
    tags = []
    with open(file_name, "r", encoding='utf8') as f:
        file_content = csv.reader(f)
        for row in file_content:
            tags += row[13].split("、")

    wordcloud = WordCloud(
        font_path='C:/Windows/Fonts/simhei.ttf',
        width=700,
        height=400,
        max_words=200,
        max_font_size=150
    ).generate(" ".join(tags))
    image = wordcloud.to_image()
    image.show()

參數	說明
font_path : string	字體路徑，需要展現什麼字體就把該字體路徑+後綴名寫上例：font_path = ‘黑體.ttf’
width : int (default=400)	輸出的畫布寬度，默認爲400像素
height : int (default=200)	輸出的畫布高度，默認爲200像素
prefer_horizontal : float (default=0.90)	詞語水平方向排版出現的頻率，默認 0.9 （所以詞語垂直方向排版出現頻率爲 0.1 ）
mask : nd-array or None (default=None)	如果參數爲空，則使用二維遮罩繪製詞雲。如果 mask 非空，設置的寬高值將被忽略，遮罩形狀被 mask 取代。除全白（#FFFFFF）的部分將不會繪製，其餘部分會用於繪製詞雲。如：bg_pic = imread(‘讀取一張圖片.png’)，背景圖片的畫布一定要設置爲白色（#FFFFFF），然後顯示的形狀爲不是白色的其他顏色。
scale : float (default=1)	按照比例進行放大畫布，如設置爲1.5，則長和寬都是原來畫布的1.5倍。
min_font_size : int (default=4)	顯示的最小的字體大小
font_step : int (default=1)	字體步長，如果步長大於1，會加快運算但是可能導致結果出現較大的誤差。
max_words : number (default=200)	要顯示的詞的最大個數
stopwords : set of strings or None	設置需要屏蔽的詞，如果爲空，則使用內置的STOPWORDS
background_color : color value (default=”black”)	背景顏色，如background_color=‘white’,背景顏色爲白色。
max_font_size : int or None (default=None)	顯示的最大的字體大小
mode : string (default=”RGB”)	當參數爲“RGBA”並且background_color不爲空時，背景爲透明。
relative_scaling : float (default=.5)	詞頻和字體大小的關聯性
color_func : callable, default=None	生成新顏色的函數，如果爲空，則使用 self.color_func
regexp : string or None (optional)	使用正則表達式分隔輸入的文本
collocations : bool, default=True	是否包括兩個詞的搭配
colormap : string or matplotlib colormap, default=”viridis”	給每個單詞隨機分配顏色，若指定color_func，則忽略該方法。
fit_words(frequencies)	根據詞頻生成詞雲
generate(text)	根據文本生成詞雲
generate_from_frequencies(frequencies[, …])	根據詞頻生成詞雲
generate_from_text(text)	根據文本生成詞雲
process_text(text)	將長文本分詞並去除屏蔽詞
recolor([random_state, color_func, colormap])	對現有輸出重新着色。重新上色會比重新生成整個詞雲快很多。
to_array()	轉化爲 numpy array
to_file(filename)	輸出到文件

微信搜一搜關注博主領取更多學習諮料

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Python行業分析5】BOSS直聘招聘信息獲取之熱詞圖wordcloud

微信搜一搜關注博主領取更多學習諮料

【數據結構與算法Python實踐系列】經典排序算法-選擇排序

【數據結構與算法Python實踐系列】經典排序算法-冒泡排序

【JQuery學習筆記day14】HTML 屬性

【JQuery學習筆記day12】HTML 表單

【數據結構與算法Python實踐系列】0 序

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結