第九章爬蟲基礎總結

原創

2020-06-09 00:47

前八章是把爬蟲的一些基礎知識過了一邊，但是內容也很有限。這些搞定了，應該自己玩玩應該夠了，或者當個實習生也差不多。

前八章的主要思路就是：

關於爬蟲的進階，建議可以把web多花點時間瞭解一下。以及http協議，瞭解的再深也不爲過。關於爬蟲的那就學習一下：

一種爬蟲需求有可能能用多種手段進行解決，那麼如何做技術篩選呢？

開始爬蟲前正確的做法：

去各大知識平臺論壇提問，csdn（×），作業幫（√）
去百度和谷歌搜下這個網站有沒有人分享出你要爬數據的API（最好按時間排序，不然大概率網站已經改版，代碼不能用）
看看電腦網頁有沒有你要的數據，寫點代碼測試調查下好不好拿，不管好不好拿，也不要急着就開爬
看看有沒有電腦能打開的手機網站，一般格式爲http://m.xxx.com或
http://mobile.xxxx.com，有的話可以用F12檢查抓下包，看下抓取難易程度
看看有沒有手機App，抓下App的包，看能不能抓到接口，如果新版抓不到，可以嘗試舊版本
嘗試分析app的一些分享外鏈
抓下公衆號和小程序的包，看能不能抓到接口
都不好弄的話，嘗試的話selenium/airtest
最高境界：web端破解js 移動端逆向破解
放棄抵抗：js爬蟲，人肉爬蟲
終極大殺器–女裝賣萌：老闆，不要搞我啦😂，不如晚上…

以上調查完成後，再去確定你要選擇的爬取方式。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

第九章 爬蟲基礎總結