BeautifulSoup庫實戰-爬取豆瓣top250圖書

日拱一卒|數據挖掘016

之前寫過一篇用基於正則表達式來爬取豆瓣圖書信息:
requests庫實戰-爬取豆瓣top250的圖書

這次推文用BeautifulSoup代替正則表達式來抽取網頁中的文本信息

推文對應的代碼鏈接:https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb

主要使用三個python庫,requests,lxml,BeautifulSoup
requests庫主要是獲取網頁的內容和結構
lxml庫用來解析網頁
BeautifulSoup則是用來抽取網頁中的文本信息

第一步,導入有關的庫

第二步,構造函數allurl()得到圖書top250所有鏈接

第三步,使用requests庫獲取網頁內容

第四步,使用BeautifulSoup來解析網頁,並提取所需信息

這裏解釋下table
通過查看網頁源代碼(Chrome瀏覽器Ctrl+U),可知圖書信息存放在屬性爲width=100%名稱爲table的標籤裏。比如胡塞尼的《追風箏的人》

比如東野奎吾的《解憂雜貨店》


1.獲取書名

Python strip()方法

2.獲取評分

3.獲取評價人數

4.構造函數book()

第五步,合併函數並導出表格



參考資料:
python爬取豆瓣圖書Top250

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章