學習筆記 | python網絡爬蟲 爬蟲簡介

01 Python爬蟲環境與爬蟲簡介

內容:爬蟲的定義 + 網絡爬蟲的類別 + 獲取到內容的合法性的討論

  • 本章對爬蟲及反爬蟲進行了一個基本概述,同時簡要介紹了Python爬蟲環境,對本章內容做小結如下。
  • 爬蟲是一種可以自動下載網頁的腳本或計算機工具,可大致分爲4種運作原理,用於個人或學術研究的爬蟲通常是合法的。
  • 反爬蟲爲網站針對爬蟲進行檢測和限制的過程,爬蟲需針對反爬蟲手段制定對應的爬取策略。
  • Python常用的爬蟲庫包含urllib、requests、urllib 3、scrapy、lxml和BeautifulSoup 4等庫,通常需要配套數據庫用於存儲爬取的數據。

瀏覽網頁基本流程

  • 瀏覽器發送請求給網頁服務器,網頁服務器返回相應內容給瀏覽器。

爬蟲的概念

  • 網絡爬蟲也被成爲網絡蜘蛛、網絡機器人,是一個自動下載網頁的計算機程序或自動化腳本。
  • 網絡爬蟲就像是一隻蜘蛛🕷️一樣在互聯網上沿着URL的絲線爬行,下載每一個URL所指向的網頁,分析頁面內容。

爬蟲的原理

在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述

爬蟲的合法性與Robots協議

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Python爬蟲相關庫

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章