Python——爬蟲之基礎(一)

筆者由於有快一年沒有接觸Python了, 但是最近準備吧Python再給撿起來,,而且最近也在學習一些關於爬蟲方面的東西,所以今天就給大家介紹一下爬蟲的基礎知識,關於爬蟲的一些基本操作和演練會在後面的博客中介紹,也歡迎大家關注我的博客。

首先我們來談一下爬蟲的概念:

網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。隨着網絡的迅速發展,萬維網成爲大量信息的載體,如何有效地提取並利用這些信息成爲一個巨大的挑戰。搜索引擎(Search Engine),例如傳統的通用搜索引擎AltaVista,Yahoo!和Google等,作爲一個輔助人們檢索信息的工具成爲用戶訪問萬維網的入口和指南。但是,這些通用性搜索引擎也存在着一定的侷限性。爲了解決存在的侷限性,定向抓取相關網頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的信息。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲並不追求大的覆蓋,而將目標定爲抓取與某一特定主題內容相關的網頁,爲面向主題的用戶查詢準備數據資源。

而如何進行爬取自己所需的數據呢,即爬取的一般流程是什麼:

  1. 初始一批URL ,將這些URL放到待爬取隊列。
  2. 從隊列取出這些URL ,通過DNS解析IP ,對IP對應的站點下載HTML頁面,保存到本地服務器中,爬取完的URL放到已爬取隊列
  3. 分析這些網頁內容,找出網頁裏面的其他關心的URL鏈接,繼續執行第2步,直到爬取條件結束。

所謂的URL就是統一資源定位系統(uniform resource locator;URL)是因特網的萬維網服務程序上用於指定信息位置的表示方法。它最初是由蒂姆·伯納斯·李發明用來作爲萬維網的地址。現在它已經被萬維網聯盟編制爲互聯網標準RFC1738。

而搜索引擎如何獲取一個新網站的URL

  1. 新網站主動提交給搜索引擎。
  2. 通過其它網站頁面中設置的外鏈。
  3. 搜索引擎和DNS服務商合作,獲取最新收錄的網站。

網絡爬蟲程序在將網頁爬下來之後,其中還有一個關鍵的步驟就是需要對我們關注的目標信息進行提取,從大多數無用的數據在提取出我們所需要的數據,而我們將爬下來的數據進行篩選時,這就需要我們用到Python中的表達式,如正則表達式等,大家關於正則表達式,可以去看看我前面的博客關於模塊的一些用法上面寫了正則表達式的一些用法,希望對大家有用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章