01 Python爬蟲環境與爬蟲簡介
內容:爬蟲的定義 + 網絡爬蟲的類別 + 獲取到內容的合法性的討論
- 本章對爬蟲及反爬蟲進行了一個基本概述,同時簡要介紹了Python爬蟲環境,對本章內容做小結如下。
- 爬蟲是一種可以自動下載網頁的腳本或計算機工具,可大致分爲4種運作原理,用於個人或學術研究的爬蟲通常是合法的。
- 反爬蟲爲網站針對爬蟲進行檢測和限制的過程,爬蟲需針對反爬蟲手段制定對應的爬取策略。
- Python常用的爬蟲庫包含urllib、requests、urllib 3、scrapy、lxml和BeautifulSoup 4等庫,通常需要配套數據庫用於存儲爬取的數據。
瀏覽網頁基本流程
- 瀏覽器發送請求給網頁服務器,網頁服務器返回相應內容給瀏覽器。
爬蟲的概念
- 網絡爬蟲也被成爲網絡蜘蛛、網絡機器人,是一個自動下載網頁的計算機程序或自動化腳本。
- 網絡爬蟲就像是一隻蜘蛛🕷️一樣在互聯網上沿着URL的絲線爬行,下載每一個URL所指向的網頁,分析頁面內容。
爬蟲的原理
爬蟲的合法性與Robots協議