BeautifulSoup简介:
文章目录
一、BeautifulSoup功能
网页解析 , HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
1解析原理
通过定位 HTML 标签来 格式化和组织复杂的网络信息
2 编码方式
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
3 其他解析器
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。
二、BeautifulSoup4四大对象种类
- Tag
- NavigableString
- BeautifulSoup
- Comment
1.Tag
定义:Tag通俗点讲就是HTML中的一个个标签
对象的类型是bs4.element.Tag。但是注意,它查找的是在所有内容中的第一个符合要求的标签。
2、NavigableString
获取标签内部的文字
3、BeautifulSoup
BeautifulSoup对象表示的是一个文档的内容
4、Comment
Comment 对象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号。
象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号。