使用爬蟲遇到的一些問題

原創

2018-09-11 03:42

本博客會記錄博主在使用爬蟲過程中遇到的問題，不斷更新，希望以後再遇到這些問題的時候，可以快速解決。

1、在爬取和訊博客的時候發現閱讀數和評論數無法正常讀取。通過抓包工具抓取到了閱讀數和評論數的URL，但是複製到瀏覽器上打開發現一片空白。在抓包工具Raw裏發現，有一項Refere，後面將此項加到headers信息裏，數據可以正常顯示出來了。代碼如下：

import urllib.request

url='http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645'

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

此次難點在於不熟悉urllib庫是如何添加更多的請求信息到heagers裏，在以上代碼中，data裏還可以添加更加多的請求，比如cookie等信息，記錄此次代碼的目的在於熟悉urllib.request.Reques的用法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用爬蟲遇到的一些問題

打印機一直在接收數據，通過網絡分析軟件快速定位有問題的電腦

mysql數據庫被掛馬，使用數據替換語句解決

linux下恢復mysql的root權限方法

使用pandas模塊幫助朋友處理mysql中的重複數據

使用scrapy框架爬取蜂鳥論壇的攝影圖片並下載到本地

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結