原创 scrapy-redis分佈式爬蟲如何在start_urls中添加參數

scrapy-redis分佈式爬蟲如何在start_urls中添加參數 1.背景介紹 有這樣一個需求,需要爬取A,B,C,D四個鏈接下的數據,但是每個鏈接下要爬取的數據量不同: url鏈接: 指定爬取的商品數 A:

原创 python3下使用scrapy實現模擬用戶登錄與cookie存儲—— 中級篇(百度雲俱樂部)

python3下使用scrapy實現模擬用戶登錄與cookie存儲—— 中級篇(百度雲俱樂部) 1. 背景 相關基礎知識點回顧: python3下使用requests模擬用戶登錄 —— 中級篇(百度雲俱樂部):https:/

原创 故障分析系列(01) —— scrapy爬蟲速度突然變慢原因分析

故障分析系列(01) —— scrapy爬蟲速度突然變慢原因分析 1. 問題背景 在所有環境都沒變的情況下,scrapy爬蟲每天能爬取的數據量從3月5號開始急劇減少,後面幾天數據量也是越來越少。 2. 環境 系統:win7

原创 python下selenium如何處理日期控件的幾種方法

1. 背景介紹 我們在使用selenium爬取數據時,有時會需要選擇日期,來獲取某個時間段的數據。但是網上的日期控件還真是五花八門,有正常一點的: 淘寶聯盟上的 有這樣的: 當然還有這樣的: 簡單點的,我們還可以模擬鼠標點擊

原创 scrapy-redis分佈式爬蟲的搭建過程(代碼篇)

scrapy-redis分佈式爬蟲的搭建過程(代碼篇) 1. 背景 關於環境搭建和理論部分請參考前面的文章: scrapy-redis分佈式爬蟲的搭建過程(理論篇):http://blog.csdn.net/zwq9123188

原创 python下操作redis數據庫的基本方法

1. 環境。 Python:3.6.1 Python IDE:pycharm 系統:win7 2. Redis簡要說明 redis是一個key-value存儲系統,爲了保證效率,數據都是緩存在內存中。它支持存儲的value類

原创 python + selenium多進程爬取淘寶搜索頁數據

python + selenium多進程爬取淘寶搜索頁數據 1. 功能描述 按照給定的關鍵詞,在淘寶搜索對應的產品,然後爬取搜索結果中產品的信息,包括:標題,價格,銷量,產地等信息,存入mongodb中,需要採用多進程提高爬取效

原创 反爬技術研究 — 網站是通過什麼方式來發現爬蟲的?

反爬技術研究 —— 網站是通過什麼方式來發現爬蟲的? 記錄下目前已知的幾種。 請求頭header,user-agent:用scrapy編寫時務必修改其默認值。 單一IP非常規的訪問頻次。 單一IP非常規的數據流量。 大量重複簡單

原创 反爬技術研究 — 網站常用的反爬技術有哪些?

反爬技術研究 — 網站常用的反爬技術有哪些? user-agent 數據請求頭,最初級的反爬,只要在請求中模擬請求頭即可輕鬆飄過。 驗證碼 驗證碼是最常用的反爬蟲措施,但簡單驗證碼通過機器學習自動識別,通常正確率能達到50%

原创 python + selenium + chrome 如何操作滾動條

python + selenium + chrome 如何操作滾動條 1. 背景 在使用selenium模擬瀏覽器時,經常會需要下拉滾動條,一般是有兩個目的: 擬人操作,突破精妙的反爬系統。 有些元素正常情況下不加載出來,需要拖

原创 python + selenium + chrome 如何打開新窗口,並實現窗口切換

python + selenium + chrome 如何打開新窗口,並實現窗口切換 1. 背景 在使用selenium時,經常會有打開一個新的窗口的需求,下面會提供幾種窗口切換的思路。 2. 環境 python 3.6.1

原创 scrapy爬蟲的搭建過程(理論篇)

scrapy爬蟲的搭建過程(理論篇) 1. 概述 Scrapy是一個純Python實現的,爲了爬取網站數據、提取結構化數據而編寫的應用框架,用途非常廣泛。只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁的內容以及各種

原创 python語言常見問題

python語言常見問題 1. 編譯錯誤 1.1. TabError: inconsistent use of tabs and spaces in indentation C:\timer>python getAllTitles

原创 python + selenium多進程分攤爬蟲任務基礎

python + selenium多進程分攤爬蟲任務基礎 1. 背景 現在有這樣一個需求:爬取淘寶商品信息,具體的流程是,在搜索欄輸入關鍵字,然後爬取搜索結果列表中的商品信息。 分析這個需求會發現具有如下特點: 第一,淘寶請求

原创 手機抓包工具Fidder的使用:環境搭建篇

手機抓包工具Fidder的使用:環境搭建篇 1.概述 Fiddler是一個http協議調試代理工具,它能夠記錄並檢查所有你的電腦和互聯網之間的http通訊,設置斷點,查看所有的“進出”Fiddler的數據(指cookie,htm