目錄
彩蛋
1、“網絡爬蟲”未完待續……
(1)Scrapy爬蟲的地位
Python語言最好的爬蟲框架。
具備企業級專業爬蟲的擴展性(7X24高可靠性)。
千萬級URL爬取管理與部署:Scrapy足以支撐一般商業服務所需的爬蟲能力。
持續爬取、商業服務、高可靠性。
(2)Scrapy爬蟲的應用展望
①普通價值:
基於Linux,7X24,穩定爬取輸出。
商業級部署和應用(scrapy*)。
千萬級規模內URL爬取、內容分析和存儲。
②高階價值:
基於docker,虛擬化部署。
中間件擴展,增加調度和監控。
各種反爬取對抗技術。
2、“網絡爬蟲”課程回顧和總結
(1)技術路線
requests-bs4-re、scrapy(5+2結構)。
(2)本課程實例
①京東商品頁面的爬取。
②亞馬遜商品頁面的爬取。
③百度/360搜索關鍵字提交。
④網絡圖片的爬取和存儲。
⑤IP地址歸屬地的自動查詢。
⑥中國大學排名定向爬蟲。
⑦淘寶商品比價定向爬蟲。
⑧股票數據定向爬蟲。
⑨股票數據scrapy爬蟲。
(3)技術路線展望
requests-bs4-re、scrapy + PhantomJS。
表單提交、爬取週期、入庫存儲。
scrapy-*(https://pypi.python.org)。