爬蟲基礎
寫在前面
見到很多新名詞,自己敲一遍加深記憶
一,HTTP基礎
1,URI與URL
- URL:Uniform Resource Location,統一資源定位符
- URI:Uniform Resource Identifier,統一資源標識符
- URN:Universal Resource Name,統一資源名字
URN和URL是URI的子集
用一個鏈接舉例子:https://geekori.com/source.php?tag=52
這個鏈接既是URL也是URI,我們可以通過鏈接指定訪問協議(http)、訪問域名(geekoricom)、訪問路徑(source.php)和參數(?tag=52)
2,超文本(hypertext)
3,數據傳輸協議
- HTTP:Hyper Text Transfer Protocol,超文本傳輸協議
- HTTPS:Hyper Text Transfer Protocol over Secure Socket Layer,安全的HTTP協議
- 還有FTP、SFTP、SMB協議等
4,HTTP請求過程
5,請求
- 請求方法
- 請求鏈接
- 請求頭
- 請求體
6,相應
- 響應狀態碼
- 響應頭
- 相應體
二,網頁基礎
1,HTML
- HTML:Hyper Text Markup Language,超文本標記語言
主要作用:
HTML 用不同的標記表示各種節點,這些節點可以組成任意複雜的網頁
2,CSS
- css:Cascading Style Sheets,層疊式樣表
主要作用:
1,佈局:將由HTML定義的頁面節點安排到合適的位置
2,設置頁面節點的樣式
3,CSS選擇器
作用:過濾HTML代碼中符合條件的節點
4,JavaScript
JavaScript簡稱JS,是一種腳本語言
HTML與CSS配合只能讓Web更美觀,但是無法提供動態效果,JavaScript能讓Web顯示動態效果
三,爬蟲基本原理
1,爬蟲的種類
可按照爬取的數據範圍進行分類
- 全網爬蟲:用於抓取整個互聯網的數據,主要用於搜索引擎的數據源
- 站內爬蟲:與全網爬蟲類似,只適用於抓取站內的網絡資源,主要喲用於企業內部的搜索引擎的數據源
- 定向爬蟲:專門獲取某種特定的數據
可按照爬取的內容和方式進行分類 - 網頁文本爬蟲
- 圖像爬蟲
- js爬蟲
- 異步數據爬蟲,主要抓取基於AJAX的系統數據
- 抓取其他數據的爬蟲(如word、excel、pdf等)
2,爬蟲抓取數據的工具和流程
工具:python,第三方庫
流程:獲取,分析,提純,保存,使用
四,Session與Cookie
- Session:將數據保存到服務器端
- Cookie:將數據保存在客戶端