原创 chrome瀏覽器爬蟲崩潰,怎麼辦?python + selenium + chrome + headless模式

chrome瀏覽器爬蟲崩潰,怎麼辦?python + selenium + chrome + headless模式 1. 背景 在使用selenium + chrome瀏覽器渲染模式爬取數據時,如果併發任務過多,或者爬蟲的運行時

原创 python + selenium + chrome 在實現back,forward,refresh時的注意事項

python + selenium + chrome 在實現back,forward,refresh時的注意事項 1. 背景 在使用selenium模擬瀏覽器時,經常會使用到導航欄的三個按鈕:後退,前進,刷新。來達到在瀏覽過的頁面

原创 win7下計劃任務提示“該任務映像已損壞或已篡改”解決方案

win7下計劃任務提示“該任務映像已損壞或已篡改”解決方案 1. 背景 在windows下部署爬蟲,經常會用到windows系統自帶的任務計劃。但是有時候計劃任務會出現不預期的錯誤,發生損壞…如下所示: 具體原因不詳,比較粗

原创 scrapy爬蟲的搭建過程(實戰篇)

scrapy爬蟲的搭建過程(實戰篇) 1. 爬蟲功能 以 http://bbs.fengniao.com/forum/forum_125_1_lastpost.html 爲起始頁,爬取前十頁的信息,包括文章的標題、鏈接地址和圖片

原创 python3下使用requests實現模擬用戶登錄 —— 基礎篇(馬蜂窩)

python3下使用requests實現模擬用戶登錄 —— 基礎篇(馬蜂窩) 1. 瞭解cookie和session 首先一定要先瞭解到cookie和session是什麼,這是後面理解網站交互,模擬用戶登錄的基礎。 1.1.

原创 Mongodb配置主從模式,進行數據的同步與備份

Mongodb配置主從模式,進行數據的同步與備份 1. 背景 做數據庫的人都知道要對數據做備份,避免數據庫單點部署,以防止數據遭到毀滅性破壞。 mongodb提供的Master/slave主從模式,剛好能支持這種雙機熱備份,還有

原创 selenium + python處理select標籤下拉框的選項

selenium + python處理select標籤下拉框的選項 1. 背景 在爬取網頁是,有時候我們會遇到下圖中的下拉框,也就是< select > < /select >標籤。按照一般的點擊方案是無法成功的,而seleni

原创 python + selenium + chrome 如何清理瀏覽器緩存

python + selenium + chrome 如何清理瀏覽器緩存 1. 背景 在使用selenium + chrome瀏覽器渲染模式爬取數據時,如果併發任務過多,或者爬蟲的運行時間很長,那麼很容易出現瀏覽器崩潰的現象,如

原创 scrapy-redis分佈式爬蟲的搭建過程(理論篇)

scrapy-redis分佈式爬蟲的搭建過程(理論篇) 1. 背景 Scrapy 是一個通用的爬蟲框架,但是不支持分佈式,Scrapy-redis是爲了更方便地實現Scrapy分佈式爬取,而提供了一些以redis爲基礎的組件(僅

原创 如何使用scrapy中的ItemLoader提取數據?

如何使用scrapy中的ItemLoader提取數據? 1. 簡述 我們在用scrapy爬取數據時,首先就要明確我們要爬取什麼數據。scrapy提供了Item對象這種簡單的容器,我們可以通過Item定義提取數據的格式,需要爬取哪

原创 python3下使用scrapy實現模擬用戶登錄與cookie存儲 —— 基礎篇(馬蜂窩)

python3下使用scrapy實現模擬用戶登錄與cookie存儲 —— 基礎篇(馬蜂窩) 1. 背景 相關基礎知識點回顧: python3下使用requests實現模擬用戶登錄(馬蜂窩): http://blog.csdn.

原创 python3下使用requests模擬用戶登錄 —— 中級篇(百度雲俱樂部)

python3下使用requests模擬用戶登錄 —— 中級篇(百度雲俱樂部) 1. 背景 建議先看一下初級篇,瞭解一些爬蟲模擬登錄的基本常識: python3下使用requests實現模擬用戶登錄 —— 初級篇(馬蜂窩):h

原创 如何在scrapy中集成selenium爬取網頁

如何在scrapy中集成selenium爬取網頁 1.背景 我們在爬取網頁時一般會使用到三個爬蟲庫:requests,scrapy,selenium。requests一般用於小型爬蟲,scrapy用於構建大的爬蟲項目,而seleni

原创 網絡請求分析實戰篇(01)—— 爬取amazon搜索欄的關聯關鍵詞

網絡請求分析實戰篇(01)—— 爬取amazon搜索欄的關聯關鍵詞 1. 需求介紹 在amazon搜索商品,當輸入部分單詞時,下面會自動彈出一些關聯關鍵詞。這些關鍵詞是amazon內部總結,統計的熱門搜索關鍵詞。我們現在的需求就是,

原创 阿里雲ECS服務器環境搭建(1) —— ubuntu 16.04 圖形界面的安裝

阿里雲ECS服務器環境搭建(1) —— ubuntu 16.04 圖形界面的安裝 1. 背景 在我們購買阿里雲ECS服務器之後,默認的系統環境是很乾淨的,我購買的是ubuntu16.04,遠程登錄進入之後,發現系統是這樣的: 進入之