HTTP協議

閱讀目錄

一爲何要學習HTTP協議

二用戶上網過程

三 HTTP協議

part1 http協議概述

part2 請求協議

part3 響應協議

四抓包分析HTTP協議

一爲何要學習HTTP協議

http協議就是通信的雙方共同遵守的標準，就好比要合夥辦事的兩家公司簽署的合同。

openstack中各組件是基於restful api通信的，restful api可以單純的理解爲一個url地址。

二用戶上網過程

用戶從打開瀏覽器輸入網址到看到頁面經歷了什麼？

1.首先必須web服務器運行

2.客戶端運行瀏覽器軟件

3.用戶輸入http://www.sina.com.cn/

4.客戶端瀏覽器處理http://www.sina.com.cn/,發起查詢本地DNS操作，將www.sina.com.cn->202.103.0.33

5.客戶端瀏覽器發送http請求http://202.103.0.33:80/index.html (注意：80是web服務器的默認端口,index.html是默認的請求的資源)

6.服務端web服務收到該http的request請求頭，從請求頭中獲取客戶端的方法GET/POST.../index.html這個路徑，及客戶端請求的其他相關信息

7.服務端web服務根據取得的信息,回覆respone響應頭

響應頭中包含：

響應代碼：200表示成功，3xx表示重定向，4xx表示客戶端發送的請求有錯誤，5xx表示服務器端處理時發生了錯誤；

響應類型：由Content-Type指定；

以及其他相關的Header；

通常服務器的HTTP響應會攜帶內容，也就是有一個Body，包含響應的內容，網頁的HTML源碼就在Body中，壓縮後返回給客戶端。

8.客戶端瀏覽器收到服務端發來的數據,解壓後解析html內容，用戶就看到網頁內容了

9.html內可能嵌套其他的鏈接，比方說圖片、視頻、javascript腳本，flash等，客戶端瀏覽器會繼續發起http請求來獲取它們。這樣來自圖片和視頻的壓力就被分散到各個服務器，一個站點由無數個站點相互連接起來，就形成了World Wide Web，簡稱WWW。

綜上，其實就是一次http請求-響應的流程

三 HTTP協議

web服務器即socket服務端，瀏覽器即socket客戶端，這叫B/S架構，B與S之間通信的標準是HTTP協議（目前版本1.1，比1.0好在可以允許多個http請求複用一個TCP連接）

part1 http協議概述

HTTP（hypertext transport protocol），即超文本傳輸協議。這個協議詳細規定了瀏覽器和萬維網服務器之間互相通信的規則。

HTTP就是一個通信規則，通信規則規定了客戶端發送給服務器的內容格式，也規定了服務器發送給客戶端的內容格式。其實我們要學習的就是這個兩個格式！客戶端發送給服務器的格式叫“請求協議”；服務器發送給客戶端的格式叫“響應協議”。

特點：

HTTP叫超文本傳輸協議，基於請求/響應模式的！

HTTP是無狀態協議，FTP是有狀態。

URL：統一資源定位符，就是一個網址：協議名://域名:端口/路徑，例如：

part2 請求協議

請求協議的格式如下：

請求首行； // 請求方式請求路徑協議和版本，例如：GET /index.html HTTP/1.1

請求頭信息；// 請求頭名稱:請求頭內容，即爲key:value格式，例如：Host:localhost

空行； // 用來與請求體分隔開

請求體。 // GET沒有請求體，只有POST有請求體。

瀏覽器發送給服務器的內容就這個格式的，如果不是這個格式服務器將無法解讀！在HTTP協議中，請求有很多請求方法，其中最爲常用的就是GET和POST。不同的請求方法之間的區別，後面會一點一點的介紹。

GET請求

HTTP默認的請求方法就是GET

* 沒有請求體

* 數據必須在1K之內！

* GET請求數據會暴露在瀏覽器的地址欄中

GET請求常用的操作：

1. 在瀏覽器的地址欄中直接給出URL，那麼就一定是GET請求

2. 點擊頁面上的超鏈接也一定是GET請求

3. 提交表單時，表單默認使用GET請求，但可以設置爲POST

GET / HTTP/1.1

Host: www.sina.com.cn

Connection: keep-alive

Upgrade-Insecure-Requests: 1

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,p_w_picpath/webp,*/*;q=0.8

Accept-Encoding: gzip, deflate, sdch

Accept-Language: zh-CN,zh;q=0.8

Cookie: SINAGLOBAL=223.71.229.3_1484011627.259786; Apache=223.71.229.3_1484011627.259788

GET / HTTP/1.1：GET請求，請求服務器路徑爲 http://www.sina.com.cn/ ，協議爲1.1；

Host:www.sina.com.cn 請求的主機名爲www.sina.com.cn；

Connection: keep-alive：客戶端支持的鏈接方式，保持一段時間鏈接，默認爲3000ms；

User-Agent:.......：與瀏覽器和OS相關的信息。有些網站會顯示用戶的系統版本和瀏覽器版本信息，這都是通過獲取User-Agent頭信息而來的；

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8：告訴服務器，當前客戶端可以接收的文檔類型，其實這裏包含了*/*，就表示什麼都可以接收；

Accept-Encoding: gzip, deflate,sdch：支持的壓縮格式。數據在網絡上傳遞時，可能服務器會把數據壓縮後再發送；

Accept-Language: zh-cn,zh;q=0.5：當前客戶端支持的語言，可以在瀏覽器的工具選項中找到語言相關信息；

Cookie:SINAGLOBAL=223.71.229.3_1484011627.259786; Apache=223.71.229.3_1484011627.259788 因爲不是第一次訪問這個地址，所以會在請求中把上一次服務器響應中發送過來的Cookie在請求中一併發送去過；這個Cookie的名字爲SINAGLOBAL

POST請求

(1). 數據不會出現在地址欄中

(2). 數據的大小沒有上限

(3). 有請求體

(4). 請求體中如果存在中文，會使用URL編碼！

代碼：

<!DOCTYPE html>
<html>
<body>

<form method="post">用戶名:<br>
<input type="text" name="username">
<br>密碼:<br>
<input type="text" name="password">
<input type="submit" value="登錄">
</form>

</body>
</html>

我們都知道Http協議中參數的傳輸是"key=value"這種簡直對形式的，如果要傳多個參數就需要用“&”符號對鍵值對進行分割。如"?name1=value1&name2=value2"，這樣在服務端在收到這種字符串的時候，會用“&”分割出每一個參數，然後再用“=”來分割出參數值。

 

針對“name1=value1&name2=value2”我們來說一下客戶端到服務端的概念上解析過程: 
  上述字符串在計算機中用ASCII嗎表示爲： 
  6E616D6531 3D 76616C756531 26 6E616D6532 3D 76616C756532。 
   6E616D6531：name1 
   3D：= 
   76616C756531：value1 
   26：&
   6E616D6532：name2 
   3D：= 
   76616C756532：value2 
   服務端在接收到該數據後就可以遍歷該字節流，首先一個字節一個字節的吃，當吃到3D這字節後，服務端就知道前面吃得字節表示一個key，再想後吃，如果遇到26，說明從剛纔吃的3D到26子節之間的是上一個key的value，以此類推就可以解析出客戶端傳過來的參數。

   現在有這樣一個問題，如果我的參數值中就包含=或&這種特殊字符的時候該怎麼辦。 
比如說“name1=value1”,其中value1的值是“va&lu=e1”字符串，那麼實際在傳輸過程中就會變成這樣“name1=va&lu=e1”。我們的本意是就只有一個鍵值對，但是服務端會解析成兩個鍵值對，這樣就產生了奇異。

如何解決上述問題帶來的歧義呢？解決的辦法就是對參數進行URL編碼 
   URL編碼只是簡單的在特殊字符的各個字節前加上%，例如，我們對上述會產生奇異的字符進行URL編碼後結果：“name1=va%26lu%3D”，這樣服務端會把緊跟在“%”後的字節當成普通的字節，就是不會把它當成各個參數或鍵值對的分隔符。

爲什麼要進行URL編碼

POST請求是可以有體的，而GET請求不能有請求體。

Referer: http://localhost:63342/test/test.html：請求來自哪個頁面，例如你在百度上點擊鏈接到了這裏，那麼Referer:http://www.baidu.com；如果你是在瀏覽器的地址欄中直接輸入的地址，那麼就沒有Referer這個請求頭了；

Content-Type: application/x-www-form-urlencoded：表單的數據類型，說明會使用url格式編碼數據；url編碼的數據都是以“%”爲前綴，後面跟隨兩位的16進制。

Content-Length:49：請求體的長度，這裏表示13個字節。

username=‘ ’：請求體內容！hello是在表單中輸入的數據，keyword是表單字段的名字

Referer請求頭是比較有用的一個請求頭，它可以用來做統計工作，也可以用來做防盜鏈。
統計工作：我公司網站在百度上做了廣告，但不知道在百度上做廣告對我們網站的訪問量是否有影響，那麼可以對每個請求中的Referer進行分析，如果Referer爲百度的很多，那麼說明用戶都是通過百度找到我們公司網站的。
防盜鏈：我公司網站上有一個下載鏈接，而其他網站盜鏈了這個地址，例如在我網站上的index.html頁面中有一個鏈接，點擊即可下載JDK7.0，但有某個人的微博中盜鏈了這個資源，它也有一個鏈接指向我們網站的JDK7.0，也就是說登錄它的微博，點擊鏈接就可以從我網站上下載JDK7.0，這導致我們網站的廣告沒有看，但下載的卻是我網站的資源。這時可以使用Referer進行防盜鏈，在資源被下載之前，我們對Referer進行判斷，如果請求來自本網站，那麼允許下載，如果非本網站，先跳轉到本網站看廣告，然後再允許下載。

part3 響應協議

3.1 響應內容

響應協議的格式如下：

響應首行；

響應頭信息；

空行；

響應體。

響應內容是由服務器發送給瀏覽器的內容，瀏覽器會根據響應內容來顯示。遇到<img src=''>會開一個新的線程加載，所以有時圖片多的話，內容會先顯示出來，然後圖片才一張張加載出來。

代碼：

#_*_coding:utf-8_*_

#!/usr/bin/env python

from wsgiref.simple_server import make_server

# 定義application函數:

def application(environ, start_response):

print(environ)

start_response('200 OK', [('Content-Type', 'text/html')])

f=open('test.html','rb')

return [f.read()]

# 創建一個服務器，IP地址爲空，端口是8000，處理函數是application:

httpd = make_server('', 8000, application)

print('Serving HTTP on port 8000...')

# 開始監聽HTTP請求:

httpd.serve_forever()

<!DOCTYPE html>

<html>

<body>

<form>

用戶名:<br>

<br>

密碼:<br>

</form>

</body>

</html>

HTTP/1.1 200 OK：響應協議爲HTTP1.1，狀態碼爲200，表示請求成功，OK是對狀態碼的解釋；

Server:WSGIServer/0.2 CPython/3.6.0：服務器的版本信息；

Content-Type: text/html;charset=UTF-8：響應體使用的編碼爲UTF-8；

Content-Length: 217：響應體爲217字節；

Set-Cookie: JSESSIONID=C97E2B4C55553EAB46079A4F263435A4; Path=/hello：響應給客戶端的Cookie；

Date: Wed, 25 Sep 2012 04:15:03 GMT：響應的時間，這可能會有8小時的時區差；

3.2 狀態碼

響應頭對瀏覽器來說很重要，它說明了響應的真正含義。例如200表示響應成功了，302表示重定向，這說明瀏覽器需要再發一個新的請求。

200：請求成功，瀏覽器會把響應體內容（通常是html）顯示在瀏覽器中；

404：請求的資源沒有找到，說明客戶端錯誤的請求了不存在的資源；

500：請求資源找到了，但服務器內部出現了錯誤；

302：重定向，當響應碼爲302時，表示服務器要求瀏覽器重新再發一個請求，服務器會發送一個響應頭Location，它指定了新請求的URL地址；

304：

當用戶第一次請求index.html時，服務器會添加一個名爲Last-Modified響應頭，這個頭說明了
  index.html的最後修改時間，瀏覽器會把index.html內容，以及最後響應時間緩存下來。當用戶第
  二次請求index.html時，在請求中包含一個名爲If-Modified-Since請求頭，它的值就是第一次請
  求時服務器通過Last-Modified響應頭髮送給瀏覽器的值，即index.html最後的修改時間，
  If-Modified-Since請求頭就是在告訴服務器，我這裏瀏覽器緩存的index.html最後修改時間是這個,
  您看看現在的index.html最後修改時間是不是這個，如果還是，那麼您就不用再響應這個index.html
  內容了，我會把緩存的內容直接顯示出來。而服務器端會獲取If-Modified-Since值，與index.html
  的當前最後修改時間比對，如果相同，服務器會發響應碼304，表示index.html與瀏覽器上次緩存的相
  同，無需再次發送，瀏覽器可以顯示自己的緩存頁面，如果比對不同，那麼說明index.html已經做了修
  改，服務器會響應200。

3.3 其他響應頭

告訴瀏覽器不要緩存的響應頭：

Expires: -1；

Cache-Control: no-cache；

Pragma: no-cache；

自動刷新響應頭，瀏覽器會在3秒之後請求http://www.baidu.com：

Refresh: 3;url=http://www.baidu.com

3.4 HTML中指定響應頭

在HTMl頁面中可以使用<meta http-equiv="" content="">來指定響應頭，例如在index.html頁面中給出<meta http-equiv="Refresh" content="3;url=http://www.baidu.com">，表示瀏覽器只會顯示index.html頁面3秒，然後自動跳轉到http://www.baidu.com.

回到頂部

四抓包分析HTTP協議

我們可以打開瀏覽器在菜單中選擇”視圖“，“開發者”，"開發者工具"，選擇Network來監控瀏覽器與web服務器之間做的事情。

web服務器收到的客戶端發來的請求頭

web服務器發給客戶端的響應頭（返回body就是html了）

MySQL壓力測試工具

online ddl 工具之pt-online-schema-change封裝

MySQL跳過主從錯誤工具（mysqlha_skiperror.sh）

第九篇裝飾器

第七篇 python基礎之函數，遞歸，內置函數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結