Python网络爬虫（2）处理网页数据find和findall函数

原創

One-Shell

2020-06-30 15:27

findAll(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

标签参数tag ：传一个标签的名称或多个标签名称组成的 Python 列表做标签参数

属性参数attributes 是用一个 Python 字典封装一个标签的若干属性和对应的属性值

递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息？如果 recursive 设置为 True ，findAll 就会根据你的要求去查找标签参数的所有子标签，以及子标签的子标签。如果 recursive 设置为 False ，findAll 就只查找文档的一级标签。findAll 默认是支持递归查找的（recursive 默认值是 True ）；

文本参数 text 用标签的文本内容去匹配，而不是用标签的属性

这只是用来寻找文本比较常用的

四种BeautifulSoup对象：

BeautifulSoup对象

BeautifulSoup.tag对象

NavigableString对象：

用来表示标签里的文字，而不是标签。

Comment对象：

用来查找HTML文档的注释标签，

导航树

如果想要通过标签在文档中的位置来查找标签，则需要导航树。BeautifulSoup对象本身就是一个导航树，我们直接通过标签来访问。

除此之外，我们还可以通过children来访问一个标签的子标签，descendants来访问后代标签，parent来访问父标签，next_siblings来访问兄弟标签，previpus_sibling来访问前一个兄弟标签等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python网络爬虫（2）处理网页数据find和findall函数

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

linux安装cuda和cudnn

Mellanox网卡开启SR-IOV

模拟手机设备：使用 Playwright 实现移动端自动化测试

HTML 00 Tutorial

全面系统的AI学习路径，帮助普通人也能玩转AI

从零开始：使用 Playwright 脚本录制实现自动化测试

uni-app实现上拉加载

suricata關鍵配置項說明

suricata+bwapp靶場sqlmap實測

NERDTree

Python網絡爬蟲（5）糗事百科段子抓取

Python網絡爬蟲（4）煎蛋網妹子圖片抓取

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結