用Jsoup Splider 抓取豆瓣書籍信息

打個小guang告,搜索拼duoduo店鋪: Boush雜貨鋪
物美價廉,你值得擁有

抓取豆瓣上的書籍信息

之前有一個愛立信外包的獵頭聯繫我,先是幫我推簡歷,然後讓編程實現爬蟲,抓取豆瓣上互聯網、編程、算法的書籍信息,自己太菜,電面就跪了。。。。。。但還是把自己的實現分享出來

題目如下:將豆瓣(book.douban.com)裏的關於“互聯網,編程,算法”方面的書籍數據抓下來,並且顯示評分最高的前100本數據(要求評價數目不低於1000)

主要是使用jsoup來解析HTML,具體怎麼用可以谷歌,抓取數據的時候當抓取的數據量太大的時候,豆瓣的服務器會檢測到,並把ip封掉,但是用瀏覽器缺仍然可以訪問,所以猜測是服務器對HTTP請求中的cookies進行了檢測,在代碼中加上cookies,ip就不會再被封了,另外至於會不會是請求時間間隔太短被封ip,沒有具體驗證,保險起見每個請求結束之後休眠1s。

附上源碼github地址

https://github.com/xiaoleo911/DoubanSplider

爬蟲抓取的數據結果如下

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-EwpL6jPl-1592311397405)(https://img-blog.csdn.net/20170106105039292?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZ29kbG92ZWxlbzk1Mjc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)]

這些書評分都很高,都是很值得一讀的。

打賞我

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章