前八章是把爬蟲的一些基礎知識過了一邊,但是內容也很有限。這些搞定了,應該自己玩玩應該夠了,或者當個實習生也差不多。
前八章的主要思路就是:
- 先認知爬蟲這門技術,瞭解作用流程(任何技術最開始都不需要深扣細節,先從宏觀上進行把握)
- 經典的http模擬請求庫requests的一些瞭解
- 爬蟲常見的三種解析方式
- web端的自動化測試工具selenium
- app爬蟲一個抓包工具fiddler一個app自動化測試工具airtest
關於爬蟲的進階,建議可以把web多花點時間瞭解一下。以及http協議,瞭解的再深也不爲過。關於爬蟲的那就學習一下:
- 多線多進程異步,進行加速
- scrapy框架
- gerapy進行可視化部署
- 高級反爬 驗證碼,js加密,行爲檢測
- celery異步定時框架
- apsheduler定時框架
- app逆向
- 爬蟲監控
一種爬蟲需求有可能能用多種手段進行解決,那麼如何做技術篩選呢?
開始爬蟲前正確的做法:
- 去各大知識平臺論壇提問,csdn(×),作業幫(√)
- 去百度和谷歌搜下這個網站有沒有人分享出你要爬數據的API(最好按時間排序,不然大概率網站已經改版,代碼不能用)
- 看看電腦網頁有沒有你要的數據,寫點代碼測試調查下好不好拿,不管好不好拿,也不要急着就開爬
- 看看有沒有電腦能打開的手機網站,一般格式爲http://m.xxx.com或
http://mobile.xxxx.com,有的話可以用F12檢查抓下包,看下抓取難易程度 - 看看有沒有手機App,抓下App的包,看能不能抓到接口,如果新版抓不到,可以嘗試舊版本
- 嘗試分析app的一些分享外鏈
- 抓下公衆號和小程序的包,看能不能抓到接口
- 都不好弄的話,嘗試的話selenium/airtest
- 最高境界:web端破解js 移動端逆向破解
- 放棄抵抗:js爬蟲,人肉爬蟲
- 終極大殺器–女裝賣萌:老闆,不要搞我啦😂,不如晚上…
以上調查完成後,再去確定你要選擇的爬取方式。