BeautifulSoup简介:day3

BeautifulSoup简介:

一、BeautifulSoup功能

网页解析 , HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。

1解析原理

通过定位 HTML 标签来 格式化和组织复杂的网络信息

2 编码方式

Beautiful Soup自动将输入文档转换为Unicode编码输出文档转换为utf-8编码

3 其他解析器

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。

二、BeautifulSoup4四大对象种类

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

1.Tag

定义:Tag通俗点讲就是HTML中的一个个标签

The Dormouse's story Tag属性: **name 和 attrs**

对象的类型是bs4.element.Tag。但是注意,它查找的是在所有内容中的第一个符合要求的标签

2、NavigableString

获取标签内部的文字

3、BeautifulSoup

BeautifulSoup对象表示的是一个文档的内容

4、Comment

Comment 对象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号。

象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章