Python爬蟲大戰
爬蟲與發爬蟲的廝殺,一方爲了拿到數據,一方爲了防止爬蟲拿到數據,誰是最後的贏家?
重新理解爬蟲中的一些概念
爬蟲:自動獲取網站數據的程序
反爬蟲:使用技術手段防止爬蟲程序爬取數據
誤傷:反爬蟲技術將普通用戶識別爲爬蟲,這種情況多出現在封ip中,例如學校網絡、小區網絡再或者網絡網絡都是共享一個公共ip,這個時候如果是封ip就會導致很多正常訪問的用戶也無法獲取到數據。所以相對來說封ip的策略不是特別好,通常都是禁止某ip一段時間訪問。
成本:反爬蟲也是需要人力和機器成本
攔截:成功攔截爬蟲,一般攔截率越高,誤傷率也就越高
反爬蟲的目的
初學者寫的爬蟲:簡單粗暴,不管對端服務器的壓力,甚至會把網站爬掛掉了
數據保護:很多的數據對某些公司網站來說是比較重要的不希望被別人爬取
商業競爭問題:這裏舉個例子是關於京東和天貓,假如京東內部通過程序爬取天貓所有的商品信息,從而做對應策略這樣對天貓來說就造成了非常大的競爭
爬蟲與反爬蟲大戰
上有政策下有對策,下面整理了常見的爬蟲大戰策略
Scrapy分佈式原理
關於Scrapy工作流程
Scrapy單機架構
上圖的架構其實就是一種單機架構,只在本機維護一個爬取隊列,Scheduler進行調度,而要實現多態服務器共同爬取數據關鍵就是共享爬取隊列。
分佈式架構
我將上圖進行再次更改
這裏重要的就是我的隊列通過什麼維護?
這裏一般我們通過Redis爲維護,Redis,非關係型數據庫,Key-Value形式存儲,結構靈活。
並且redis是內存中的數據結構存儲系統,處理速度快,提供隊列集合等多種存儲結構,方便隊列維護
如何去重?
這裏藉助redis的集合,redis提供集合數據結構,在redis集合中存儲每個request的指紋
在向request隊列中加入Request前先驗證這個Request的指紋是否已經加入集合中。如果已經存在則不添加到request隊列中,如果不存在,則將request加入到隊列並將指紋加入集合
如何防止中斷?如果某個slave因爲特殊原因宕機,如何解決?
這裏是做了啓動判斷,在每臺slave的Scrapy啓動的時候都會判斷當前redis request隊列是否爲空
如果不爲空,則從隊列中獲取下一個request執行爬取。如果爲空則重新開始爬取,第一臺叢集執行爬取向隊列中添加request
如何實現上述這種架構?
這裏有一個scrapy-redis的庫,爲我們提供了上述的這些功能
scrapy-redis改寫了Scrapy的調度器,隊列等組件,利用他可以方便的實現Scrapy分佈式架構
關於scrapy-redis的地址:https://github.com/rmax/scrapy-redis
搭建分佈式爬蟲
參考官網地址:https://scrapy-redis.readthedocs.io/en/stable/
前提是要安裝scrapy_redis模塊:pip install scrapy_redis
這裏的爬蟲代碼是用的之前寫過的爬取知乎用戶信息的爬蟲
修改該settings中的配置信息:
替換scrapy調度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
添加去重的class
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
添加pipeline
如果添加這行配置,每次爬取的數據也都會入到redis數據庫中,所以一般這裏不做這個配置
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 300
}
共享的爬取隊列,這裏用需要redis的連接信息
這裏的user:pass表示用戶名和密碼,如果沒有則爲空就可以
REDIS_URL = 'redis://user:pass@hostname:9001'
設置爲爲True則不會清空redis裏的dupefilter和requests隊列
這樣設置後指紋和請求隊列則會一直保存在redis數據庫中,默認爲False,一般不進行設置
SCHEDULER_PERSIST = True
設置重啓爬蟲時是否清空爬取隊列
這樣每次重啓爬蟲都會清空指紋和請求隊列,一般設置爲False
SCHEDULER_FLUSH_ON_START=True
分佈式
將上述更改後的代碼拷貝的各個服務器,當然關於數據庫這裏可以在每個服務器上都安裝數據,也可以共用一個數據,我這裏方面是連接的同一個mongodb數據庫,當然各個服務器上也不能忘記:
所有的服務器都要安裝scrapy,scrapy_redis,pymongo
這樣運行各個爬蟲程序啓動後,在redis數據庫就可以看到如下內容,dupefilter是指紋隊列,requests是請求隊列
Scrapy分佈式部署
這個scrapyd的github地址:https://github.com/scrapy/scrapyd
當在遠程主機上安裝了scrapyd並啓動之後,就會再遠程主機上啓動一個web服務,默認是6800端口,這樣我們就可以通過http請求的方式,通過接口的方式管理我們scrapy項目,這樣就不需要在一個一個電腦連接拷貝過着通過git,關於scrapyd官方文檔地址:http://scrapyd.readthedocs.io/en/stable/
安裝scrapyd
安裝scrapyd:pip install scrapyd
這裏我在另外一臺ubuntu linux虛擬機中同樣安裝scrapy以及scrapyd等包,保證所要運行的爬蟲需要的包都完成安裝,這樣我們就有了兩臺linux,包括上篇文章中我們已經有的linux環境
在這裏有個小問題需要注意,默認scrapyd啓動是通過scrapyd就可以直接啓動,這裏bind綁定的ip地址是127.0.0.1端口是:6800,這裏爲了其他虛擬機訪問講ip地址設置爲0.0.0.0
scrapyd的配置文件:/usr/local/lib/python3.5/dist-packages/scrapyd/default_scrapyd.conf
這樣我們就可以通過瀏覽器訪問:
關於部署
如何通過scrapyd部署項目,這裏官方文檔提供一個地址:https://github.com/scrapy/scrapyd-client,即通過scrapyd-client進行操作
這裏的scrapyd-client主要實現以下內容:
把我們本地代碼打包生成egg文件
根據我們配置的url上傳到遠程服務器上
我們將我們本地的scrapy項目中scrapy.cfg配置文件進行配置:
我們其實還可以設置用戶名和密碼,不過這裏沒什麼必要,只設置了url
這裏設置url一定要注意:url = http://192.168.1.9:6800/addversion.json
最後的addversion.json不能少
我們在本地安裝pip install scrapy_client,安裝完成後執行:scrapyd-deploy
zhaofandeMBP:zhihu_user zhaofan$ scrapyd-deployPacking version 1502177138Deploying to project "zhihu_user" in http://192.168.1.9:6800/addversion.jsonServer response (200):{"node_name": "fan-VirtualBox", "status": "ok", "version": "1502177138", "spiders": 1, "project": "zhihu_user"}zhaofandeMBP:zhihu_user zhaofan$看到status:200表示已經成功
關於常用操作API
listprojects.json列出上傳的項目列表
zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/listprojects.json{"node_name": "fan-VirtualBox", "status": "ok", "projects": ["zhihu_user"]}zhaofandeMBP:zhihu_user zhaofan$listversions.json列出有某個上傳項目的版本
zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/listversions.json?project=zhihu_user{"node_name": "fan-VirtualBox", "status": "ok", "versions": ["1502177138"]}zhaofandeMBP:zhihu_user zhaofan$schedule.json遠程任務的啓動
下面我們啓動的三次就表示我們啓動了三個任務,也就是三個調度任務來運行zhihu這個爬蟲
zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/schedule.json -d project=zhihu_user -d spider=zhihu{"node_name": "fan-VirtualBox", "status": "ok", "jobid": "97f1b5027c0e11e7b07a080027bbde73"}zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/schedule.json -d project=zhihu_user -d spider=zhihu{"node_name": "fan-VirtualBox", "status": "ok", "jobid": "99595aa87c0e11e7b07a080027bbde73"}zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/schedule.json -d project=zhihu_user -d spider=zhihu{"node_name": "fan-VirtualBox", "status": "ok", "jobid": "9abb1ba27c0e11e7b07a080027bbde73"}zhaofandeMBP:zhihu_user zhaofan$同時當啓動完成後,我們可以通過頁面查看jobs,這裏因爲我遠端服務器並沒有安裝scrapy_redis,所以顯示任務是完成了,我點開日誌並能看到詳細的日誌情況:
這裏出錯的原因就是我上面忘記在ubuntu虛擬機安裝scrapy_redis以及pymongo模塊,進行
pip install scrapy_redis pymongo安裝後重新啓動,就可以看到已經在運行的任務,同時點開Log日誌也能看到爬取到的內容:
listjobs.json列出所有的jobs任務
上面是通過頁面顯示所有的任務,這裏是通過命令獲取結果
zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/listjobs.json?project=zhihu_user{"node_name": "fan-VirtualBox", "status": "ok", "running": [], "pending": [], "finished": [{"start_time": "2017-08-08 15:53:00.510050", "spider": "zhihu", "id": "97f1b5027c0e11e7b07a080027bbde73", "end_time": "2017-08-08 15:53:01.416139"}, {"start_time": "2017-08-08 15:53:05.509337", "spider": "zhihu", "id": "99595aa87c0e11e7b07a080027bbde73", "end_time": "2017-08-08 15:53:06.627125"}, {"start_time": "2017-08-08 15:53:10.509978", "spider": "zhihu", "id": "9abb1ba27c0e11e7b07a080027bbde73", "end_time": "2017-08-08 15:53:11.542001"}]}zhaofandeMBP:zhihu_user zhaofan$cancel.json取消所有運行的任務
這裏可以將上面啓動的所有jobs都可以取消:
zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/cancel.json -d project=zhihu_user -d job=0f5cdabc7c1011e7b07a080027bbde73{"node_name": "fan-VirtualBox", "status": "ok", "prevstate": "running"}zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/cancel.json -d project=zhihu_user -d job=63f8e12e7c1011e7b07a080027bbde73{"node_name": "fan-VirtualBox", "status": "ok", "prevstate": "running"}zhaofandeMBP:zhihu_user zhaofan$ curl http://192.168.1.9:6800/cancel.json -d project=zhihu_user -d job=63f8e12f7c1011e7b07a080027bbde73{"node_name": "fan-VirtualBox", "status": "ok", "prevstate": "running"}這樣當我們再次通過頁面查看,就可以看到所有的任務都是finshed狀態:
我相信看了上面這幾個方法你一定會覺得真不方便還需要輸入那麼長,所以有人替你幹了件好事把這些API進行的再次封裝:https://github.com/djm/python-scrapyd-api
關於python-scrapyd-api
該模塊可以讓我們直接在python代碼中進行上述那些api的操作
首先先安裝該模塊:pip install python-scrapyd-api
使用方法如下,這裏只演示了簡單的例子,其他方法其實使用很簡單按照規則寫就行:
from scrapyd_api import ScrapydAPIscrapyd = ScrapydAPI('http://192.168.1.9:6800')res = scrapyd.list_projects()res2 = scrapyd.list_jobs('zhihu_user')print(res)print(res2)Cancel a scheduled job
scrapyd.cancel('project_name', '14a6599ef67111e38a0e080027880ca6')
Delete a project and all sibling versions
scrapyd.delete_project('project_name')
Delete a version of a project
scrapyd.delete_version('project_name', 'version_name')
Request status of a job
scrapyd.job_status('project_name', '14a6599ef67111e38a0e080027880ca6')
List all jobs registered
scrapyd.list_jobs('project_name')
List all projects registered
scrapyd.list_projects()
List all spiders available to a given project
scrapyd.list_spiders('project_name')
List all versions registered to a given project
scrapyd.list_versions('project_name')
Schedule a job to run with a specific spider
scrapyd.schedule('project_name', 'spider_name')
Schedule a job to run while passing override settings
settings = {'DOWNLOAD_DELAY': 2}
Schedule a job to run while passing extra attributes to spider initialisation
scrapyd.schedule('project_name', 'spider_name', extra_attribute='value')
以上是全部代碼,只是善於分享,不足之處請包涵!爬蟲基本的原理就是,獲取源碼,進而獲取網頁內容。一般來說,只要你給一個入口,通過分析,可以找到無限個其他相關的你需要的資源,進而進行爬取。