爬蟲基礎

寫在前面

見到很多新名詞,自己敲一遍加深記憶

一,HTTP基礎

1,URI與URL

  • URL:Uniform Resource Location,統一資源定位符
  • URI:Uniform Resource Identifier,統一資源標識符
  • URN:Universal Resource Name,統一資源名字

URN和URL是URI的子集
在這裏插入圖片描述

用一個鏈接舉例子:https://geekori.com/source.php?tag=52
這個鏈接既是URL也是URI,我們可以通過鏈接指定訪問協議(http)、訪問域名(geekoricom)、訪問路徑(source.php)和參數(?tag=52)

2,超文本(hypertext)

在這裏插入圖片描述

3,數據傳輸協議

  • HTTP:Hyper Text Transfer Protocol,超文本傳輸協議
  • HTTPS:Hyper Text Transfer Protocol over Secure Socket Layer,安全的HTTP協議
  • 還有FTP、SFTP、SMB協議等

4,HTTP請求過程

5,請求

  • 請求方法
  • 請求鏈接
  • 請求頭
  • 請求體

6,相應

  • 響應狀態碼
  • 響應頭
  • 相應體

二,網頁基礎

1,HTML

  • HTML:Hyper Text Markup Language,超文本標記語言
    主要作用:
    HTML 用不同的標記表示各種節點,這些節點可以組成任意複雜的網頁

2,CSS

  • css:Cascading Style Sheets,層疊式樣表
    主要作用:
    1,佈局:將由HTML定義的頁面節點安排到合適的位置
    2,設置頁面節點的樣式

3,CSS選擇器

作用:過濾HTML代碼中符合條件的節點

4,JavaScript

JavaScript簡稱JS,是一種腳本語言
HTML與CSS配合只能讓Web更美觀,但是無法提供動態效果,JavaScript能讓Web顯示動態效果

三,爬蟲基本原理

1,爬蟲的種類

可按照爬取的數據範圍進行分類

  1. 全網爬蟲:用於抓取整個互聯網的數據,主要用於搜索引擎的數據源
  2. 站內爬蟲:與全網爬蟲類似,只適用於抓取站內的網絡資源,主要喲用於企業內部的搜索引擎的數據源
  3. 定向爬蟲:專門獲取某種特定的數據
    可按照爬取的內容和方式進行分類
  4. 網頁文本爬蟲
  5. 圖像爬蟲
  6. js爬蟲
  7. 異步數據爬蟲,主要抓取基於AJAX的系統數據
  8. 抓取其他數據的爬蟲(如word、excel、pdf等)

2,爬蟲抓取數據的工具和流程

工具:python,第三方庫
流程:獲取,分析,提純,保存,使用

四,Session與Cookie

  1. Session:將數據保存到服務器端
  2. Cookie:將數據保存在客戶端
發佈了36 篇原創文章 · 獲贊 12 · 訪問量 5061
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章