爬蟲

什麼是爬蟲?
百度百科:網絡爬蟲
那爲什麼要學習爬蟲?
學習爬蟲爲了提取某個網站或者某個應用的內容,提取有用的價值
關於python爬蟲,我們需要學習:python基礎語法(基礎知識)
HTML頁面的內容抓取(數據抓取)
HTML頁面的數據提取(數據清洗)
scrapy框架以及scrapy-redis分佈式策略(第三方框架)
爬蟲 反爬蟲 反反爬蟲之間的鬥爭
1根據使用場景不同,網絡爬蟲可以分爲通用爬蟲和聚焦爬蟲兩種。
一:通用爬蟲 :通用網絡爬蟲是捜索引擎抓取系統(Baidu、Google、Yahoo 等)的重要組成部分。主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份
二:通用搜索引擎工作原理:通用網絡爬蟲 從互聯網中搜集網頁,採集信息,這些網頁信息用於爲搜索引擎建立索引從而提供支持,它決定着整個引擎系統的內容是否豐富,信息是否即時,因此其性能的優劣直接影響着搜索引擎的效果。
第一步:抓取網頁
搜索引擎網絡爬蟲的基本工作流程如下:
首先選取一部分的種子URL,將這些URL放入待抓取URL隊列;取出待抓取URL,解析DNS的到的主機IP,並將URL對應的網頁下載下來,存儲進已下載網頁庫中,並且將這些URL放進已抓取URL隊列 。分析已抓取URL隊列中的URL,分析其中的其他URL,並且將URL放入待抓取URL隊列,從而進入下一個循環

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章