第14.3節使用google瀏覽器獲取網站訪問的http信息

原創

2019-09-08 13:04

爲了簡單處理，本次介紹的內容是基於網站已經登錄的情況下去獲取網頁訪問的http信息。
首先需要使用谷歌瀏覽器登錄指定網站，並訪問需要爬取的網頁，如老猿使用谷歌瀏覽器登錄csdn，並訪問老猿Python的主頁：https://blog.csdn.net/LaoYuanPython。
等網頁內容呈現後，按F12鍵調出開發者工具，缺省情況下開發者工具會在當前網頁右邊的疊加窗口呈現，如圖黃色標記區域：

該窗口也可能出現在左邊、下邊，但這種模式使用不是很方便，可以點擊上圖中右上角藍色標記的三個豎點，選擇：Dock side（窗口出現位置）中的第一個選項如下：

將開發者工具分離成單獨窗口，分離後的窗口如下：

上面窗口中黃色標記部分是開發者工具的菜單，老猿目前就用了兩個：Elements、Network，其中Elements可以支持選擇對應的網頁html元素進行拷貝，在開發者工具的Elements菜單顯示html文檔後通過Ctrl+F輸入查找字符串定位或直接在網頁上選擇到需要拷貝的內容鼠標右鍵選擇“檢查（或Inspect，如下圖）”定位到對應網頁內容對應的元素，在轉載網頁內容時比較方便。

我們重點是要使用Network對應功能，選擇後出現如下窗口：

爲了避免干擾，先點擊上圖黃色標記所示的按鈕執行下面窗口信息的清除，然後到網頁所在窗口執行網頁刷新，再回到開發者工具窗口點擊左上角上圖藍色標記的停止記錄按鈕，此時會在窗口中保留網頁刷新對應的http消息，點擊第一條出現如下窗口：

上圖右邊黃色標記部分就是訪問https://blog.csdn.net/LaoYuanPython對應的http請求頭信息，下面我們來詳細看看這些信息：

上面這些黃色標記的信息是編寫爬蟲需要重點關注的http請求報文頭的內容：
 User-Agent:這個是表明使用的哪個瀏覽器的，關於其來歷可參考一下《轉：爲什麼瀏覽器的user-agent字符串以’Mozilla’開頭呢？》https://blog.csdn.net/LaoYuanPython/article/details/100086652，具體取值網上可以查一下。
 Accept:這個是表明本機作爲客戶端瀏覽器可接受的MIME類型（互聯網媒體類型），就是本機能識別處理的互聯網信息類型
 Accept-Encoding: Accept - Encoding：瀏覽器能夠進行解碼的數據編碼方式，如gzip, deflate, br等；
 Accept-Language: 客戶端瀏覽器所希望的語言種類，當服務器能夠提供一種以上的語言版本時要用到，如zh-CN,zh;q=0.9等；
 Connection：表示是否需要持久連接，keep-alive表示是持久連接；
 cookie：會話cookie信息。
這樣我們就獲取到了一個網頁訪問的http請求報文的報文頭信息，除了請求頭信息還有個信息需要關注，就是下圖黃色標記的General信息：

其中：
 Request URL記錄發送請求的網頁地址；本例中是https://blog.csdn.net/LaoYuanPython
 Request Method：是報文發送的方法，在本例中是get方法，相關http方法請參考《轉：解析HTTP協議六種請求方法,get,head,put,delete,post有什麼區別》
 Status Code：請求服務端應答，200表示成功訪問。具體應答碼含義請參考《HTTP響應報文應答狀態碼及含義》