原创 網絡爬蟲-icgoo電子元件網js加密破解分析

失蹤人口迴歸~~~ 今天是幫一個小老弟看的一個比較簡單的js加密網站,考慮到一部分童鞋對js加密這塊還不太熟悉,我就簡單地把思路和流程捋一捋。 首先打開需要拿數據的頁面 → 電子元件網AD620 嘩啦啦的就加載出來了 ,然鵝右鍵查

原创 網絡爬蟲-2018個人總結

概述 忙裏偷閒,趁着元旦休息的這幾天,在2018年的最後一天,總結一下自己在這一年遇到過的多多少少的坑以及一些心得體會吧。 粗略算下來,從事爬蟲工程師這個崗位也算是一年有餘了吧,從一個毛髮旺盛的小夥,到一個即將面對禿頭危機的油膩大叔

原创 網絡爬蟲-抓取1000W百度文庫doc文檔

今天抓取的是百度文庫doc文檔,但是要求確實隨機的1000萬份文檔並存爲txt文本,下載百度文庫的開源項目已經有了,那麼去哪裏找到1000萬個百度文庫doc文檔的url呢,並且在短時間內下載下來。 因爲爬蟲是一個IO密集型業務,所以使

原创 網絡爬蟲-爬取指定城市空氣質量檢測數據

爬取指定城市空氣質量檢測數據 網站鏈接 → https://www.aqistudy.cn/historydata/ 以月數據爲例,見下圖: 然後我們通過console調試可以發現 這個網頁在items裏面已經將數據打包好了,如下圖

原创 網絡爬蟲-使用requests上傳multipart/form-data格式文件

由於以前沒有使用requests上傳過文件,所以今天在使用它上傳文件的時候遇見了一個坑,接下來我們就來一層一層解析這個坑 以科大訊飛官網上傳音頻文件爲例 首先是喜聞樂見地打開Fiddler進行抓包操作,流程也很簡單,很快就抓下來了上傳

原创 網絡爬蟲-破解京東滑塊驗證碼

最近一直在研究滑塊驗證碼這一塊,接連破解了極驗2.0,極驗3.0以及淘寶滑塊,當然了,只是使用selenium模擬過,拿到cookie後進行後續操作。 今天就講講京東這個滑塊驗證碼,神坑,之前的軌跡方程全部不可用,需要自己慢慢調試,找

原创 網絡爬蟲-爬取一卡通企業數據保存CVS

最近被各種encode,decode折磨得死去活來的,保存到json,csv或者txt各種亂碼,實在了令人抓狂,有些明明是正確輸出在pycharm上的,但是保存的時候就亂碼了,今天就記錄一下采坑過程。 以一卡通世界官網爲例(保存至CS

原创 網絡爬蟲-使用Scrapy爬取千圖網素材

話說好久好久好久沒寫過scrapy的demo了,已經快忘得差不多了,今天一個小老弟讓我幫他看看怎麼大量快速爬取千圖網的素材,我進網站看了看,一是沒有什麼反爬措施,二是沒有封ip的限制,那這種情況,鐵定用scrapy這個異步框架最舒服了

原创 網絡爬蟲-繞過debugger反爬(Paused in debugger)

最近發現很多網站出現了前端反調試debugger來反爬,防止數據被抓取,實際上是很簡單的原理,其實也就是js搞的鬼,看來作爲一名合格的爬蟲工程師,在js的道路上也會越走越遠–!廢話不多說,看圖→ Paused in debugger

原创 網絡爬蟲-淘寶登陸+爬取賣家信息

最近幫助一個小夥伴做了一個入職測試題,需求是登陸指定淘寶賬號後爬取賣出的商品詳情(訂單號,訂單時間,單價,總價,買家名稱,買家地址等),然後進入https://guimi.taobao.com 進行舉報操作。。。 雖然我也沒搞懂這一套

原创 網絡爬蟲-神器fiddler抓取app數據

才接觸爬蟲的時候,我們通常使用的是瀏覽器的開發者工具-F12裏的NetWork對網頁進行抓包,但是這有一個缺點,就是如果網頁加載了很多亂七八糟的東西,比如廣告啊,各種各樣的js之類的時候,NewWork就顯得有點吃力了,我們就需要使用

原创 網絡爬蟲-模擬手機瀏覽器抓取數據

有些網站的數據在PC端很複雜,參數加密很嚴重,但是移動APP端的就沒那麼多加密,所以在遇到有些瓶頸的情況下,可以考慮從網頁端轉到移動端去抓包,爬取數據。這裏有兩種方法: 一. 使用模擬器下載APP 如果該網站有APP的話,推薦使用逍遙

原创 網絡爬蟲-pyqt5繞過反爬服務

當遇到使用selenium被網站識別爲robot的時候,首先考慮的是換chromedriver,geckodriver,iedriver等,如果都還行不通,那麼可以嘗試修改chromedriver源碼: stackoverflow傳送門

原创 網絡爬蟲-爬取飛常準航班信息

今天爬取的是一個航空公司網站的航班信息–飛常準 我們需要遍歷抓取每一個航班裏的所有信息 這裏需要注意 有些列出來的航班可能不存在信息 需要進行一次判斷 另外 訪問過快會導致被該網站封號,解封會出現驗證碼,可以自己搭建免費i

原创 Python編寫貪吃蛇小遊戲

2018.3.15 晴 天氣越來越熱 要穿T恤了 今天一天就編了一個小遊戲:貪吃蛇。  面向對象這個邏輯是必須要學會的,has a , is a, 這些關係要弄明白,封裝,繼承,多態,是面向對象的三個屬性。今天的貪吃蛇代碼基本上是完成了,