1. 量身打造属于你的词云图

今天的Python案例是跟着笔者来打造属于自己的词云图。那么什么是词云图呢？我们在百度中来搜索一下，如图所示：

概念：词云图就是由词汇组成类似云的彩色图形。接下来我们就可以去为自己量身打造一张词云图了，但是笔者在这里的话就不拿自己的照片来进行演示了。最近很火的一部电影冰雪奇缘2，不知道大家有没有看过。无论是美轮美奂的画面质感，还是艾莎的造型如图1所示，都得到了众多人的喜爱，全球各地再度掀起了一股艾莎热潮。

接下来我们用Python来分析下这部电影的剧情并以艾莎为背景绘制词云图，效果如图2所示。

第一步：首先的话我们要准备一张遮照图，用来绘制词云的形状的，如果是想要拿自己的照片来做的话，一定要使用抠图技术将浓烈的背景换为纯色的背景。第二个的话就是我们需要准备相关的文本信息，文本信息越多，生成的图片信息越丰富。如图所示。

第二步：安装第三方模块，此次要使用到5个第三方模块，分别是matplotlib 数据可视化模块，numpy 数值计算模块，jieba 分词模块，wordcloud 词云模块，Pillow(PIL) 图像处理模块，如果不知道Pillow模块怎么使用的话，可以去看笔者的另一篇博文图片转字符画，以上模块安装命令如下：

pip install --user  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com matplotlib
pip install --user  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com numpy
pip install --user  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com jieba
pip install --user  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com wordcloud
pip install --user  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com pillow

第三步：编写代码。主要是分为6个步骤，

使用open()方法读取文本信息
读取遮照图片
生成词云图
显示词云图
使用jieba进行中文分词
设置词云图渲染颜色

示例代码如下：

import numpy as np
from PIL import Image  # 导入PIL模块中的Image对象
import wordcloud  # 导入词云模块
import matplotlib.pyplot as plt
import os
import jieba
from wordcloud import ImageColorGenerator

file_name = "elsa.txt"
pic_name = "elsa.png"  # 你自己是什么文件名你就写什么文件名
# 判断文件是否存在
if os.path.exists(file_name):
    with open(file_name, "r") as file:  # 读取文件
        content = file.read()
        if content:  # 判断文本内容是否为空
            # 进行分词处理c 返回的是一个对象 需要使用"".join进行拼接
            cut_text = jieba.cut(content)
            word = " ".join(cut_text)  # 拼接
    img = np.array(Image.open(pic_name))  # 读取图片
    img_colors = ImageColorGenerator(img)
    # 生成词云图
    # mask: 置顶遮罩图 img
    # font_path: 设置字体
    # background_color: 设置背景颜色
    wd = wordcloud.WordCloud(mask=img, font_path="simhei.ttf", background_color="white")
    wd.generate(word)  # 生成词云图
    # 显示词云图
    plt.imshow(wd.recolor(color_func=img_colors), interpolation="bilinear")
    plt.axis("off")  # 关闭显示x轴/y轴下标
    plt.savefig("elsa_cy.png")  # 保存词云图到本地
    plt.show()
else:
    print("大哥，你在逗我吗，没文件我咋读勒！")

运行结果如图所示：

接下来，是读者们自由发挥的时间，你可以尝试找一些自己感兴趣的文本数据进行分析，开启你的脑洞绘制自己想要的词云。

2. 11行代码完成"风云"

相信大家小的时候，都看过风云这部电视剧吧。最近笔者在抖音上经常看到呢，什么无名满血拉二胡，残血到处浪之类的经典评语。哈哈哈哈哈，言归正传，接下来的任务就是用11行代码完成电视剧风云词云图！首先去百度百科找下风云电视剧的剧情简介，然后粘贴到文本文件，去掉空行后保存为fy.txt。其次使用open方法读取文本文件，然后使用jieba模块分析文本，最后通过wordcloud模块制作词云图，通过matplotlib模块显示词云图。如图所示。

示例代码如下：

import matplotlib.pyplot as plt
import wordcloud
import jieba

with open("fy.txt", "r") as file:
    content = file.read()  # 读取文本文件内容

cut_text = jieba.cut(content)  # 分词 返回一个生成器对象
word = " ".join(cut_text)  # 字符串拼接
wc = wordcloud.WordCloud(font_path="simhei.ttf", background_color="white")
wc.generate(word)  # 生成词云图

plt.imshow(wc)  # 显示词云图
plt.axis("off")  # 关闭x轴和y轴座标显示
plt.show()

3. 自定义颜色的外星人

你是否也思考过，怎样用自己喜欢的颜色来绘制词云图？下面你的任务就是实现自定义词云图颜色，使词云图更加形象、靓丽。以外星人为例，相信很多读者觉得这个LOGO眼熟，没错它就是我们和外星人一起学全彩系列图书的LOGO。

图1是原版外星人，我们来看看图2，词云图使用的是默认颜色，与原版相比有些逊色；再来看看图3，使用了红黑色混搭，是不是看起来接近原版了呢？示例代码如下：

import jieba
import wordcloud
import matplotlib.pyplot as plt
from matplotlib import colors
from scipy.misc import imread  # 注意scipy是要使用pip安装的

# 安装命令如下:
# pip install --user  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com scipy==1.2.0

with open("wxr.txt", "r") as file:
    content = file.read()  # 读取文件内容

cut_text = jieba.cut(content)  # 分词处理
word = " ".join(cut_text)  # 拼接
color_list = ["black", "red"]  # 红黑色值
# 多种颜色
# color_list = ["LightCoral", "RosyBrown", "IndianRed", "Red", "Brown", "FireBrick"
#     , "DarkRed", "Maroon", "Gainsboro", "LightGray"
#     , "Silver", "DarkGray", "Gray", "DimGray", "Black"]
color_map = colors.ListedColormap(color_list)  # matplotlib色图
img = imread("wxr.png")  # 读取图片
wd = wordcloud.WordCloud(mask=img, font_path="simhei.ttf", background_color="white", colormap=color_map)  # 生成词云图
wd.generate(word)
plt.imshow(wd)  # 显示词云图
plt.axis("off")  # 关闭x轴和y轴的座标显示
plt.savefig("图3.png")
plt.show()  # 显示

4. 自行构造中文停用词

在绘制词云图过程中，词云中包括一些无用的字符和一些不想要的词，该如何处理？例如，我们得到一些有关电影小丑的评论内容，然后将其绘制成词云图，但是在文本数据中存在一些特殊字符如《、》、？、...和一些我们不想要的、没有意义的词，如一个、展开、回应、可能、没有、这部等，如图1所示。

实现思路：

手动添加停用词通过stopwords.update()方法手动添加停用词。
根据已有停用词库遍历文本滤除停用词网上找到一些现成的停用词库，下载或复制到文本文件中备用，然后判断滤除停用词重新生成新词，赋值给词云图。

示例代码1如下：

import re
import matplotlib.pyplot as plt
from matplotlib import colors
import jieba
import wordcloud
from wordcloud import WordCloud
import imageio
# 读取文件
str1 = open('joker.txt','r').read()
#文本数据处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|\[|\]|  ；|，|。|"')
str1 = re.sub(pattern, '', str1)
#自定义小丑颜色
color_list=['darkslategray','red','orange','darkred']
colormap=colors.ListedColormap(color_list) 
#文本分词处理制作词云
cut_text = jieba.cut(str1, cut_all=True)     # cut_all=False 表示采用精确模式
word = ' '.join(cut_text)
#图片背景
pic = imageio.imread('小丑.png')
#设置中文停用词
stopwords = set('')
stopwords.update(['展开','回应','一个','影评','可能','一部','没有','我们','这个','这部','电影','就是'
                    ,'大家','不是','只是','因为','一些','本片'])
#生成词云图
wd = wordcloud.WordCloud(
    mask=pic,
    font_path='simhei.ttf',
    colormap=colormap,
    stopwords = stopwords,
    background_color='white'
    )
#将长文本分词并去除屏蔽词
process_word = WordCloud.process_text(wd,word)
#对文本词排序(根据字典中值的大小，对字典中的项排序)
sort = sorted(process_word.items(),key=lambda x:x[1],reverse=True)
print(sort[:50]) # 输出文本词频最高的前50个词
wd.generate(word)
plt.imshow(wd)
plt.axis('off')
plt.show()

运行结果如图所示：

示例代码2如下：

import re
import jieba
import wordcloud
import matplotlib.pyplot as plt
from matplotlib import colors
import imageio  # 需要安装

# 安装命令如下:
# pip install --user  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com imageio


with open("joker.txt", "r") as file:
    content = file.read()  # 读取文件内容

pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|\[|\]|  ；|，|。|"')  # 正则
str1 = re.sub(pattern, '', content)  # 处理文本数据 将上面匹配到的都替换为空字符串
color_list = ['darkslategray', 'red', 'orange', 'darkred']  # 自定义小丑颜色
color_map = colors.ListedColormap(color_list)
# cut_all=False: 表示采取精确模式
cut_text = jieba.cut(content, cut_all=True)  # 文本分词处理制作词云
word = " ".join(cut_text)  # 拼接
img = imageio.imread("小丑.png")
# 读取停止词文件并保存到列表中
stopwords = [line.strip() for line in open("stopwords.txt").readlines()]
new_word = ''
# 滤除停用词
for s in word:
    if s not in stopwords:
        new_word += s

wd = wordcloud.WordCloud(mask=img, font_path="simhei.ttf", background_color="white", colormap=color_map)  # 生成词云图
wd.generate(word)
plt.imshow(wd)  # 显示词云图
plt.axis("off")  # 关闭x轴和y轴的座标显示
plt.show()  # 显示

运行结果如图所示：

Python每日一练(10)-词云图

目录

1. 量身打造属于你的词云图

2. 11行代码完成"风云"

3. 自定义颜色的外星人

4. 自行构造中文停用词

win11关闭自动检测病毒删文件

千兆宽带实际网速能到达多少？

Python每日一練(9)-批量爬取B站小視頻

Python數據挖掘基礎(四)：Pandas高級處理

Python每日一練(18)-抓取小說目錄和全文

Python爬蟲數據抽取(三)：正則表達式

簡易五子棋遊戲(控制檯版)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結