BeautifulSoup庫實戰-爬取豆瓣top250圖書

原創

2019-02-21 13:24

日拱一卒|數據挖掘016

之前寫過一篇用基於正則表達式來爬取豆瓣圖書信息：
requests庫實戰-爬取豆瓣top250的圖書

這次推文用BeautifulSoup代替正則表達式來抽取網頁中的文本信息

推文對應的代碼鏈接：https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb

主要使用三個python庫，requests，lxml，BeautifulSoup
requests庫主要是獲取網頁的內容和結構
lxml庫用來解析網頁
BeautifulSoup則是用來抽取網頁中的文本信息

第一步，導入有關的庫

第二步，構造函數`allurl()`得到圖書top250所有鏈接

第三步，使用requests庫獲取網頁內容

第四步，使用BeautifulSoup來解析網頁，並提取所需信息

這裏解釋下table：
通過查看網頁源代碼（Chrome瀏覽器Ctrl+U），可知圖書信息存放在屬性爲width=100%名稱爲table的標籤裏。比如胡塞尼的《追風箏的人》

比如東野奎吾的《解憂雜貨店》

1.獲取書名

Python strip()方法

2.獲取評分

3.獲取評價人數

4.構造函數book()

第五步，合併函數並導出表格

參考資料：
python爬取豆瓣圖書Top250

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

關於爬蟲，你需要知道的BeautifulSoup(二)

2019-02-19 14:02:51

關於爬蟲，你需要知道的BeautifulSoup(一)

2019-02-16 14:05:35

requests庫實戰-爬取豆瓣top250的圖書

2019-02-09 13:53:36

關於爬蟲，你需要知道的requests庫

2019-02-05 14:10:15

關於爬蟲，你需要知道的re庫

2019-02-04 13:28:24

關於爬蟲，你需要曉得的正則表達式

2019-02-03 13:36:47

關於爬蟲，你需要了解的HTTP協議

2019-02-01 13:31:18

爬蟲|URL和URI有什麼不一樣

2019-02-01 13:31:18

關於爬蟲，你需要知道的HTML知識

2019-01-30 13:25:16

爬蟲|崔神的乾貨總結

2019-01-29 13:57:03

爬蟲|網絡類型和分層協議

2019-01-17 13:27:49

存儲故障後oracle報—ORA-01122/ORA-01207故障處理---惜分飛

聯繫：手機/微信(+86 17813235971) QQ(107644445) 標題：存儲故障後oracle報—ORA-01122/ORA-01207故障處理作者：惜分飛©版權所有[未經本人同意,不得以任何形式轉載,否則有進一步追究法律責

2024-05-07 12:59:03

Android系統開發 SystemUI_DisplayPolicy開發_控制設備的狀態欄、導航欄等等的顯示

版權聲明本文來自博客園，作者：觀心靜，轉載請註明原文鏈接：https://www.cnblogs.com/guanxinjing/p/17898585.html 本文版權歸作者和博客園共有，歡迎轉載，但必須給出原文鏈接，並保留此段聲明，

2024-05-07 12:58:23

【2024-05-03】連嶽摘抄

23:59 富貴貧賤只是人生一種境遇，我們要能安，我們要能樂。只要我們的行爲能合乎我們的天性，儘可不問境遇，自得安樂。

wc的一些事一些情

2024-05-07 12:58:03

【2024-05-02】連嶽摘抄

23:59 無所事事，便會成爲疏離四季的異客，便會退出生命的隊列。勞作之時，你便是一支長笛，時日的低語從你心間流過，變成旋律。

wc的一些事一些情

2024-05-07 12:58:03

24小時熱門文章

最新文章

最新評論文章