BeautifulSoup库实战-爬取豆瓣top250图书

原創

2019-02-21 13:24

日拱一卒|数据挖掘016

之前写过一篇用基于正则表达式来爬取豆瓣图书信息：
requests库实战-爬取豆瓣top250的图书

这次推文用BeautifulSoup代替正则表达式来抽取网页中的文本信息

推文对应的代码链接：https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb

主要使用三个python库，requests，lxml，BeautifulSoup
requests库主要是获取网页的内容和结构
lxml库用来解析网页
BeautifulSoup则是用来抽取网页中的文本信息

第一步，导入有关的库

第二步，构造函数`allurl()`得到图书top250所有链接

第三步，使用requests库获取网页内容

第四步，使用BeautifulSoup来解析网页，并提取所需信息

这里解释下table：
通过查看网页源代码（Chrome浏览器Ctrl+U），可知图书信息存放在属性为width=100%名称为table的标签里。比如胡塞尼的《追风筝的人》

比如东野奎吾的《解忧杂货店》

1.获取书名

Python strip()方法

2.获取评分

3.获取评价人数

4.构造函数book()

第五步，合并函数并导出表格

参考资料：
python爬取豆瓣图书Top250

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

关于爬虫，你需要知道的BeautifulSoup(二)

2019-02-19 14:02:51

关于爬虫，你需要知道的BeautifulSoup(一)

2019-02-16 14:05:35

requests库实战-爬取豆瓣top250的图书

2019-02-09 13:53:36

关于爬虫，你需要知道的requests库

2019-02-05 14:10:15

关于爬虫，你需要知道的re库

2019-02-04 13:28:24

关于爬虫，你需要晓得的正则表达式

2019-02-03 13:36:47

关于爬虫，你需要了解的HTTP协议

2019-02-01 13:31:18

爬虫|URL和URI有什么不一样

2019-02-01 13:31:18

关于爬虫，你需要知道的HTML知识

2019-01-30 13:25:16

爬虫|崔神的干货总结

2019-01-29 13:57:03

爬虫|网络类型和分层协议

2019-01-17 13:27:49

京东二面：为什么Netty要造FastThreadLocal？

FastThreadLocal 從字面意義上來看，它是“Fast”+“ThreadLocal”的結合體，寓意爲快速的 ThreadLocal。那麼，問題來了，Netty 爲什麼要再造一個 FastThreadLocal？FastThread

Java中文社羣

2024-05-28 14:33:04

微信小程序预约视频号直播

一、概述微信小程序提供了可以喚起預約視頻號直播彈窗的接口 reserveChannelsLive，該接口接收一個參數 noticeId，通過 getChannelsLiveNoticeInfo 接口獲取。因此，過程如下：查看視頻號 i

2024-05-28 14:22:23

公众号5月C#/.NET热文一览

C#/.NET/.NET Core全面的學習、工作、面試指南知識庫轉眼之間維護DotNetGuide（C#/.NET/.NET Core學習、工作、面試指南知識庫）已經持續超過了三年多的時間，Commit提交數也超過900+，在前幾天Gi

2024-05-28 14:22:13

Spring Boot 3.3 正式发布，王炸级更新，应用启动速度直接起飞！

大家好，我是R哥。最新消息，Spring Boot 一次性發布了 3 個版本： 3.3.0 3.2.6 3.1.13 Spring Boot 3.3 正式發佈了，3.1.x 在前幾天也停止維護了。最新的支持版本如下：從路線圖可以

2024-05-28 14:21:32

24小時熱門文章

最新文章

最新評論文章