最基本的兩個庫 requests 和 BeautifulSoup,requests主要爲發送請求,BeautifulSoup爲獲取網頁的便籤。遇到問題的是requests的請求。
本想爬某求職網的一些關鍵詞,幫助自己找工作,但無論怎麼都爬不了網站的信息。後來找了很久才找到解決辦法。
在requests.get裏,加入headers = cookie 的內容就行了。
在谷歌瀏覽器F12可以查看到Network的cookie,全部輸入即可。
不過到最後爬到的內容也是說我IP非法登陸,看來有不少網站開始對爬蟲操作進行應對。沒辦法,只能手動一下一下找簡歷了。
這也是2020年的第一個筆記,希望新一年會更加好。加油~!