《Python網絡爬蟲與信息提取》彩蛋

目錄

彩蛋

1、“網絡爬蟲”未完待續……

(1)Scrapy爬蟲的地位

(2)Scrapy爬蟲的應用展望

2、“網絡爬蟲”課程回顧和總結

(1)技術路線

(2)本課程實例

(3)技術路線展望


彩蛋

1、“網絡爬蟲”未完待續……

(1)Scrapy爬蟲的地位

Python語言最好的爬蟲框架。

具備企業級專業爬蟲的擴展性(7X24高可靠性)。

千萬級URL爬取管理與部署:Scrapy足以支撐一般商業服務所需的爬蟲能力。

持續爬取、商業服務、高可靠性。

(2)Scrapy爬蟲的應用展望

①普通價值:

基於Linux,7X24,穩定爬取輸出。

商業級部署和應用(scrapy­*)。

千萬級規模內URL爬取、內容分析和存儲。

②高階價值:

基於docker,虛擬化部署。

中間件擴展,增加調度和監控。

各種反爬取對抗技術。

2、“網絡爬蟲”課程回顧和總結

(1)技術路線

requests-bs4-re、scrapy(5+2結構)。

(2)本課程實例

①京東商品頁面的爬取。

②亞馬遜商品頁面的爬取。

③百度/360搜索關鍵字提交。

④網絡圖片的爬取和存儲。

⑤IP地址歸屬地的自動查詢。

⑥中國大學排名定向爬蟲。

⑦淘寶商品比價定向爬蟲。

⑧股票數據定向爬蟲。

⑨股票數據scrapy爬蟲。

(3)技術路線展望

requests-bs4-re、scrapy + PhantomJS。

表單提交、爬取週期、入庫存儲。

scrapy-*(https://pypi.python.org)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章