第九章 爬蟲基礎總結

在這裏插入圖片描述
前八章是把爬蟲的一些基礎知識過了一邊,但是內容也很有限。這些搞定了,應該自己玩玩應該夠了,或者當個實習生也差不多。

前八章的主要思路就是:

  • 先認知爬蟲這門技術,瞭解作用流程(任何技術最開始都不需要深扣細節,先從宏觀上進行把握)
  • 經典的http模擬請求庫requests的一些瞭解
  • 爬蟲常見的三種解析方式
  • web端的自動化測試工具selenium
  • app爬蟲一個抓包工具fiddler一個app自動化測試工具airtest

關於爬蟲的進階,建議可以把web多花點時間瞭解一下。以及http協議,瞭解的再深也不爲過。關於爬蟲的那就學習一下:

  • 多線多進程異步,進行加速
  • scrapy框架
  • gerapy進行可視化部署
  • 高級反爬 驗證碼,js加密,行爲檢測
  • celery異步定時框架
  • apsheduler定時框架
  • app逆向
  • 爬蟲監控

一種爬蟲需求有可能能用多種手段進行解決,那麼如何做技術篩選呢?

開始爬蟲前正確的做法:

  1. 去各大知識平臺論壇提問,csdn(×),作業幫(√)
  2. 去百度和谷歌搜下這個網站有沒有人分享出你要爬數據的API(最好按時間排序,不然大概率網站已經改版,代碼不能用)
  3. 看看電腦網頁有沒有你要的數據,寫點代碼測試調查下好不好拿,不管好不好拿,也不要急着就開爬
  4. 看看有沒有電腦能打開的手機網站,一般格式爲http://m.xxx.com或
    http://mobile.xxxx.com,有的話可以用F12檢查抓下包,看下抓取難易程度
  5. 看看有沒有手機App,抓下App的包,看能不能抓到接口,如果新版抓不到,可以嘗試舊版本
  6. 嘗試分析app的一些分享外鏈
  7. 抓下公衆號和小程序的包,看能不能抓到接口
  8. 都不好弄的話,嘗試的話selenium/airtest
  9. 最高境界:web端破解js 移動端逆向破解
  10. 放棄抵抗:js爬蟲,人肉爬蟲
  11. 終極大殺器–女裝賣萌:老闆,不要搞我啦😂,不如晚上…

以上調查完成後,再去確定你要選擇的爬取方式。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章