Python_瓜子二手車爬蟲破解和採集

前沿

寫這個是因爲有同學畢業設計做的二手車價格的分析,索性幫幫他最開始給他寫了一個 58同城二手車價格的採集已經 採集出來的數據量完全夠他用了。這裏看一下 58 二手車的採集數量如下圖:
在這裏插入圖片描述
這裏採集的總量爲 14萬的數據,源碼鏈接:58二手車採集源碼傳送門作者這裏放在了自己的資源中給自己漲的積分不爲過吧。如果沒有 VIP積分的聯繫作者分享給你源碼。

正題

搞完 58的二手車便想着看看是否可以採集一波瓜子二手車的價格,索性趁現在不算特別忙練習一下爬蟲,畢竟好久沒有搞過了,然而卻發現 瓜子二手車竟然做了反爬蟲措施,沒辦法他做了我只有破解它了,尷尬…我只是練習一下反爬技術並未對貴公司造成影響喲。請勿給我發律師函…

一:看了網上大多數人寫的瓜子二手車價格的爬蟲必須要加入 cookies才能採集,確實這是一種方法,不過他可能並沒有分析這個cookie到底是怎麼來的,今天就爲大家分析一波。

工具:fillder抓包工具是必備的。
步驟如下:
一:清除瀏覽器的緩存和cookies值【建議】並打開 fiddler
二:直接訪問此鏈接:https://www.guazi.com/www/buy
三:查看 fiddler 分析cookies產生的原因,如下圖:
在這裏插入圖片描述
可以明顯的看到鏈接訪問了兩次,第二次才訪問到真正的信息,那麼猜想是不是因爲第一訪問設置了cookies了呢?如果是這樣的話不就好辦了,直接通過session建立通道進行訪問美滋滋,所以去看一下第一個鏈接是否設置了cookies
在這裏插入圖片描述
查看來看:完全沒有設置cookies呀 不僅考慮一下這個cookies應該是第一步進行了加密產生了cookies,然後進行攜帶這個cookies進行了跳轉,所以就分析一下第一個鏈接的HTML如下如圖:
在這裏插入圖片描述
很明顯這個eval加載的js應該是產生了cookies,那邊分析這個eval加載的js文件吧,首先通過網上免費的站長格式化:http://tool.chinaz.com/Tools/jsformat.aspx 進行格式化一下。
在這裏插入圖片描述
看到上邊的便想這麼多參數一定是在這裏產生了cookies這個時候感覺這個js文件還是很亂,便考慮在瀏覽器上使用斷點分析('f u(x,y){e M=(x&N)+(y&N);e 1f=(x>>16)+(y>>16)+(M>>16);h(1f<<16)|(M&N)}f 1g(O,P){h(O<<P)|( 這一串函數到底做了什麼?

打斷點

一:
在這裏插入圖片描述
二:
在這裏插入圖片描述
很明顯看到了cookies的產生,改造一下加密函數,console控制檯走一哈如下圖:
在這裏插入圖片描述
很明顯便看到了cookies產生了。對比正確的請求發現是不是需要antipas這個參數並且每次訪問都會不同。
在這裏插入圖片描述
是不是通過這樣就不需要每次去粘貼一個cookies值了呢?分析結束希望能幫到你。
結果:作者這裏進行了採集,需要代理IP的原因,作者這裏去網上隨便下載了4個免費的代理IP採集出來了 2000多條信息,就不在採集了沒有穩定的代理。採集源碼就不放了,有需要聯繫作者,當然僅供學習,切勿商用喲。
在這裏插入圖片描述
有更好的加密網站志同道合的朋友一起研究喲。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章