原创 (爬蟲學習筆記5)爬蟲代理基本理解(代理的基本理解、基本原理、作用和分類)

爬蟲代理基本理解 一、概況: ​ 我們在做爬蟲時常常會遇到這種情況,最初爬蟲正常運行,但是一段時間之後會出現錯誤,比如:403 Forbidden。這時候我們再打開目標網頁就會看到 “您的 IP 訪問頻率太高” 這樣的提示。出

原创 (爬蟲學習筆記4)Cookies基本理解(Cookies的概述、屬性結構、與爬蟲關係的基本理解)

一、Cookies 概述: ​ HTTP有一個特點,叫做“無狀態”。HTTP無狀態是指HTTP協議對事務處理是沒有記憶力的,也就是說服務器不知道客戶端是什麼狀態,服務器不會記錄用戶的信息(簡單來說就是,如果沒有”Cookies“,

原创 (爬蟲學習筆記2)網頁基礎(網頁的組成,網頁的結構,節點樹及節點間的關係,選擇器)

一、網頁的組成 ​ 網頁可以分爲三大部分——HTML,CSS 和 JavaScript 1、HTML ​ HTML:一種用來描述網頁的語言——超文本標記語言(Hyper Text Markup Language)。網頁包括了文字,

原创 (爬蟲學習筆記1)網頁請求響應(響應狀態碼,響應頭,響應體)

響應: 響應,由服務端返回給客戶端,可以分爲三部分:響應狀態碼(Response Status Code)、響應頭(Response Headers)、響應體(Response Body)。 1、響應狀態碼 ​ 響應狀態碼錶示服務

原创 (爬蟲學習筆記3)爬蟲的基本原理(基本思路)

一、爬蟲爬取網頁的基本思路 1、獲取網頁: ​ 通過 urllib、requests等庫完成 HTTP 的請求操作,得到響應之後我們只需要解析數據結構中的 Body 部分即可。 2、提取信息: 正則表達式提取: ​ 通用方法,