爬蟲入門之網頁動態(二)

上一篇大概學習瞭如何解析網站,通過一些簡單的find_all\get函數已經能夠從html中獲取一些跳轉的網址。

再通過一輪新的request能夠進入新網站進行解析,所有模型寫好以後做一個for循環就能批量下載數據了。

 

理想是美好的,現實是殘酷的,完成第一步獲取網址以後,正準備下載數據,發現需要登錄才能獲取數據。

這一篇就準備來學習如何解決爬蟲過程中需要登錄才能爬數據的問題。

 

大致看到一種可行性方案是基於cookie的方式登錄。

什麼是cookie?簡單介紹一下就是通過本地數據登錄。

 

首先,需要獲取到cookies,通過谷歌瀏覽器的代碼,document.cookie,在console裏面可以獲取,然後選取需要的字段。

 

然後設置cookies,他的格式是這樣的:'cookies':'........'就是字典形式,並不是一個字符串走到頭。

 

—————————————————————————————————————————————————————————

 

以上問題結束以後發生了一些新的問題,我爬的網站用了一種網址不變的翻頁技術,就是每一頁的內容網址沒有改變,這就給爬數據造成了很多問題。

我總不能每次就爬第一頁的數據吧。

瞭解到這個問題是出在了Ajax上,這個ajax就是url網址不變,但是數據能夠進來,其原因是什麼我也沒弄明白,但是通過看網頁元素,大概明白了他雖然網址沒變,但是元素的網址其實延長了,延長的部分包含了page的信息,所以你直接在request的時候用元素網址就能順利完成翻頁的操作了。

 

 

所以最最最基礎的爬蟲就這麼完成了,雖然很慢,但是我需要的數據也不是那麼海量的,設置一個time.sleep防止平臺封號,一個晚上就能搞定一類數據。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章