BeautifulSoup库实战-爬取豆瓣top250图书

日拱一卒|数据挖掘016

之前写过一篇用基于正则表达式来爬取豆瓣图书信息:
requests库实战-爬取豆瓣top250的图书

这次推文用BeautifulSoup代替正则表达式来抽取网页中的文本信息

推文对应的代码链接:https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb

主要使用三个python库,requests,lxml,BeautifulSoup
requests库主要是获取网页的内容和结构
lxml库用来解析网页
BeautifulSoup则是用来抽取网页中的文本信息

第一步,导入有关的库

第二步,构造函数allurl()得到图书top250所有链接

第三步,使用requests库获取网页内容

第四步,使用BeautifulSoup来解析网页,并提取所需信息

这里解释下table
通过查看网页源代码(Chrome浏览器Ctrl+U),可知图书信息存放在属性为width=100%名称为table的标签里。比如胡塞尼的《追风筝的人》

比如东野奎吾的《解忧杂货店》


1.获取书名

Python strip()方法

2.获取评分

3.获取评价人数

4.构造函数book()

第五步,合并函数并导出表格



参考资料:
python爬取豆瓣图书Top250

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章