python 爬蟲

原創

2020-03-07 11:51

一. 關於爬蟲

爬蟲，是一種按照一定的規則自動地抓取互聯網信息的程序。它的本質是利用程序獲取對我們有利的數據。

反爬蟲，從不是將爬蟲完全杜絕；而是想辦法將爬蟲的訪問量限制在一個可接納的範圍，不要讓它過於肆無忌憚。

爲什麼不是禁止呢？原因很簡單。爬蟲代碼寫到最後，已經和真人訪問網絡毫無區別。服務器的那一端完全無法判斷是人還是爬蟲。如果想要完全禁止爬蟲，正常用戶也會無法訪問。所以只能想辦法進行限制，而非禁止。

二. 提高爬蟲效率的方法

三. 反爬蟲的措施

限制請求頭，即request header。解決方法：我們可以填寫user-agent聲明自己的身份，有時還要去填寫origin和referer聲明請求的來源。
限制登錄，即不登錄就不能訪問。解決方法：我們可以使用cookies和session的知識去模擬登錄。
複雜的交互，比如設置“驗證碼”來阻攔登錄。這就比較難做，解決方法1：我們用Selenium去手動輸入驗證碼；方法2：我們用一些圖像處理的庫自動識別驗證碼（tesserocr/pytesserart/pillow）。
ip限制。如果這個IP地址，爬取網站頻次太高，那麼服務器就會暫時封掉來自這個IP地址的請求。解決方法：使用time.sleep()來對爬蟲的速度進行限制，建立IP代理池（你可以在網絡上搜索可用的IP代理），一個IP不能用了就換一個用。
其他。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.