爬蟲基礎

原創

2020-02-21 08:24

爬蟲基礎

二，網頁基礎

三，爬蟲基本原理

四，Session與Cookie

寫在前面

見到很多新名詞，自己敲一遍加深記憶

一，HTTP基礎

1，URI與URL

URL：Uniform Resource Location，統一資源定位符
URI：Uniform Resource Identifier，統一資源標識符
URN：Universal Resource Name，統一資源名字

URN和URL是URI的子集

用一個鏈接舉例子:https://geekori.com/source.php?tag=52
這個鏈接既是URL也是URI，我們可以通過鏈接指定訪問協議（http）、訪問域名（geekoricom）、訪問路徑（source.php）和參數（？tag=52）

2，超文本（hypertext）

3，數據傳輸協議

HTTP：Hyper Text Transfer Protocol,超文本傳輸協議
HTTPS：Hyper Text Transfer Protocol over Secure Socket Layer,安全的HTTP協議
還有FTP、SFTP、SMB協議等

４，HTTP請求過程

5，請求

請求方法
請求鏈接
請求頭
請求體

6，相應

響應狀態碼
響應頭
相應體

二，網頁基礎

1，HTML

HTML：Hyper Text Markup Language,超文本標記語言
主要作用：
HTML 用不同的標記表示各種節點，這些節點可以組成任意複雜的網頁

2，CSS

css：Cascading Style Sheets,層疊式樣表
主要作用：
1，佈局：將由HTML定義的頁面節點安排到合適的位置
2，設置頁面節點的樣式

3，CSS選擇器

作用：過濾HTML代碼中符合條件的節點

4，JavaScript

JavaScript簡稱JS，是一種腳本語言
HTML與CSS配合只能讓Web更美觀，但是無法提供動態效果，JavaScript能讓Web顯示動態效果

三，爬蟲基本原理

1，爬蟲的種類

可按照爬取的數據範圍進行分類

全網爬蟲：用於抓取整個互聯網的數據，主要用於搜索引擎的數據源
站內爬蟲：與全網爬蟲類似，只適用於抓取站內的網絡資源，主要喲用於企業內部的搜索引擎的數據源
定向爬蟲：專門獲取某種特定的數據
可按照爬取的內容和方式進行分類
網頁文本爬蟲
圖像爬蟲
js爬蟲
異步數據爬蟲，主要抓取基於AJAX的系統數據
抓取其他數據的爬蟲（如word、excel、pdf等）

2，爬蟲抓取數據的工具和流程

工具：python，第三方庫
流程：獲取，分析，提純，保存，使用

四，Session與Cookie

Session：將數據保存到服務器端
Cookie：將數據保存在客戶端

吃飯第一名

發佈了36 篇原創文章 · 獲贊 12 · 訪問量 5061

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲基礎

爬蟲基礎

寫在前面

一，HTTP基礎

1，URI與URL

2，超文本（hypertext）

3，數據傳輸協議

４，HTTP請求過程

5，請求

6，相應

二，網頁基礎

1，HTML

2，CSS

3，CSS選擇器

4，JavaScript

三，爬蟲基本原理

1，爬蟲的種類

2，爬蟲抓取數據的工具和流程

四，Session與Cookie

習慣的養成三要素

簡介 Tensorflow 張量類型階形狀

問題解決：ERROR: Cannot uninstall 'llvmlite'.

向量與行列式筆記

AttributeError: module 'tensorflow' has no attribute 'reset_default_graph' 解決

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結