GitHub：新浪微博爬虫，用Python采集新浪微博数据

原創

2020-06-22 06:56

hello，小伙伴们，大家好，今天给大家分享的开源项目是：weiboSpider，看名字也可以猜到这个项目是做什么的了！没错，这个开源项目就是采集新浪微博一个或多个用户（如：胡歌、迪丽热巴、郭碧婷）数据，并将结果信息写入文件或数据库，写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。这个开源项目需设置cookie来获取微博访问权限，后面会讲解如何获取cookie。如果不想设置cookie，可以使用免cookie版，二者功能类似。

具体的写入文件类型如下：

写入txt文件（默认）
写入csv文件（默认）
写入json文件（可选）
写入MySQL数据库（可选）
写入MongoDB数据库（可选）
下载用户原创微博中的原始图片（可选）
下载用户转发微博中的原始图片（免cookie版特有）
下载用户原创微博中的视频（可选）
下载用户转发微博中的视频（免cookie版特有）
下载用户原创微博Live Photo中的视频（免cookie版特有）
下载用户转发微博Live Photo中的视频（免cookie版特有）

项目列表

自定义字段

本部分为爬取到的字段信息说明，为了与免cookie版区分，下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息，会有免cookie标注，没有标注的为二者共有的信息。

用户信息

用户id：微博用户id，如"1669879400"，其实这个字段本来就是已知字段
暱称：用户暱称，如"Dear-迪丽热巴"
性别：微博用户性别
生日：用户出生日期
所在地：用户所在地
学习经历：用户上学时学校的名字和时间
工作经历：用户所属公司名字和时间
阳光信用（免cookie版）：用户的阳光信用
微博注册时间（免cookie版）：用户微博注册日期
微博数：用户的全部微博数（转发微博+原创微博）
关注数：用户关注的微博数量
粉丝数：用户的粉丝数
简介：用户简介
主页地址（免cookie版）：微博移动版主页url
头像url（免cookie版）：用户头像url
高清头像url（免cookie版）：用户高清头像url
微博等级（免cookie版）：用户微博等级
会员等级（免cookie版）：微博会员用户等级，普通用户该等级为0
是否认证（免cookie版）：用户是否认证，为布尔类型
认证类型（免cookie版）：用户认证类型，如个人认证、企业认证、政府认证等
认证信息：为认证用户特有，用户信息栏显示的认证信息

微博信息

微博id：微博唯一标志
微博内容：微博正文
头条文章url：微博中头条文章的url，若微博中不存在头条文章，则值为’’
原始图片url：原创微博图片和转发微博转发理由中图片的url，若某条微博存在多张图片，每个url以英文逗号分隔，若没有图片则值为"无"
视频url: 微博中的视频url，若微博中没有视频，则值为"无"
微博发布位置：位置微博中的发布位置
微博发布时间：微博发布时的时间，精确到分
点赞数：微博被赞的数量
转发数：微博被转发的数量
评论数：微博被评论的数量
微博发布工具：微博的发布工具，如iPhone客户端、HUAWEI Mate 20 Pro等
结果文件：保存在当前目录weibo文件夹下以用户暱称为名的文件夹里，名字为"user_id.csv"和"user_id.txt"的形式
微博图片：原创微博中的图片和转发微博转发理由中的图片，保存在以用户暱称为名的文件夹下的img文件夹里
微博视频：原创微博中的视频，保存在以用户暱称为名的文件夹下的video文件夹里
微博bid（免cookie版）：为免cookie版所特有，与本程序中的微博id是同一个值
话题（免cookie版）：微博话题，即两个#中的内容，若存在多个话题，每个url以英文逗号分隔，若没有则值为’’
@用户（免cookie版）：微博@的用户，若存在多个@用户，每个url以英文逗号分隔，若没有则值为’’
原始微博（免cookie版）：为转发微博所特有，是转发微博中那条被转发的微博，存储为字典形式，包含了上述微博信息中的所有内容，如微博id、微博内容等等

运行环境

开发语言：python2/python3
系统： Windows/Linux/macOS

部署项目

源码安装

$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt

或者

$ python3 -m pip install weibo-spider

运行程序

源码安装的用户可以在weiboSpider目录运行如下命令，pip安装的用户可以在任意有写权限的目录运行如下命令

$ python3 -m weibo_spider

第一次执行，会自动在当前目录创建config.json配置文件，配置好后执行同样的命令就可以获取微博了。如果你已经有config.json文件了，也可以通过config_path参数配置config.json路径，运行程序，命令行如下：

$ python3 -m weibo_spider --config_path="config.json"

个性化定制程序（可选）

本部分为可选部分，如果不需要个性化定制程序或添加新功能，可以忽略此部分。

本程序主体代码位于weibo_spider.py文件，程序主体是一个 Spider 类，上述所有功能都是通过在main函数调用 Spider 类实现的，默认的调用代码如下：

config = get_config()
wb = Spider(config)
wb.start()  # 爬取微博信息

用户可以按照自己的需求调用或修改 Spider 类。通过执行本程序，我们可以得到很多信息。

定期自动爬取微博（可选）

要想让程序每个一段时间自动爬取，且爬取的内容为新增加的内容（不包括已经获取的微博），请查看定期自动爬取微博。

如何获取cookie

要了解获取cookie方法，请查看cookie文档。

如何获取user_id

要了解获取user_id方法，请查看user_id文档，该文档介绍了如何获取一个及多个微博用户user_id的方法。

开源地址：https://github.com/dataabc/weiboSpider

感兴趣的老铁不防去应用一下，一来可以参考一下作者的编码风格，二来对刚刚入门或者是入门不久的朋友提供一个采集数据的思路。

今天的推荐不知道大家喜不喜欢？如果大家喜欢话，请在文章底部留言或点赞，以表示对我的支持，你们的留言，点赞，转发关注是我持续更新的动力，peace！

关注公众号回复："1024"，免费领取一大波学习资源，先到先得哦！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

GitHub：新浪微博爬虫，用Python采集新浪微博数据

项目列表

自定义字段

运行环境

部署项目

运行程序

个性化定制程序（可选）

定期自动爬取微博（可选）

如何获取cookie

如何获取user_id

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

GitHub：爬蟲入門JS 模擬登陸各大網站

世上最污技術解讀，你這麼說我就懂了，收藏！

GitHub：新浪微博爬蟲，用Python採集新浪微博數據

GitHub：根據文字描述生成UML圖，你用過嗎?

GitHub：算法模板，最科學的刷題方式，最快速的刷題路徑，你值得擁有~

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結