第14.3節 使用google瀏覽器獲取網站訪問的http信息

爲了簡單處理,本次介紹的內容是基於網站已經登錄的情況下去獲取網頁訪問的http信息。
首先需要使用谷歌瀏覽器登錄指定網站,並訪問需要爬取的網頁,如老猿使用谷歌瀏覽器登錄csdn,並訪問老猿Python的主頁:https://blog.csdn.net/LaoYuanPython。
等網頁內容呈現後,按F12鍵調出開發者工具,缺省情況下開發者工具會在當前網頁右邊的疊加窗口呈現,如圖黃色標記區域:
在這裏插入圖片描述
該窗口也可能出現在左邊、下邊,但這種模式使用不是很方便,可以點擊上圖中右上角藍色標記的三個豎點,選擇:Dock side(窗口出現位置)中的第一個選項如下:
在這裏插入圖片描述
將開發者工具分離成單獨窗口,分離後的窗口如下:
在這裏插入圖片描述
上面窗口中黃色標記部分是開發者工具的菜單,老猿目前就用了兩個:Elements、Network,其中Elements可以支持選擇對應的網頁html元素進行拷貝,在開發者工具的Elements菜單顯示html文檔後通過Ctrl+F輸入查找字符串定位或直接在網頁上選擇到需要拷貝的內容鼠標右鍵選擇“檢查(或Inspect,如下圖)”定位到對應網頁內容對應的元素,在轉載網頁內容時比較方便。
在這裏插入圖片描述
我們重點是要使用Network對應功能,選擇後出現如下窗口:
在這裏插入圖片描述
爲了避免干擾,先點擊上圖黃色標記所示的按鈕執行下面窗口信息的清除,然後到網頁所在窗口執行網頁刷新,再回到開發者工具窗口點擊左上角上圖藍色標記的停止記錄按鈕,此時會在窗口中保留網頁刷新對應的http消息,點擊第一條出現如下窗口:
在這裏插入圖片描述
上圖右邊黃色標記部分就是訪問https://blog.csdn.net/LaoYuanPython對應的http請求頭信息,下面我們來詳細看看這些信息:
在這裏插入圖片描述
上面這些黃色標記的信息是編寫爬蟲需要重點關注的http請求報文頭的內容:
 User-Agent:這個是表明使用的哪個瀏覽器的,關於其來歷可參考一下《轉:爲什麼瀏覽器的user-agent字符串以’Mozilla’開頭呢?》https://blog.csdn.net/LaoYuanPython/article/details/100086652,具體取值網上可以查一下。
 Accept:這個是表明本機作爲客戶端瀏覽器可接受的MIME類型(互聯網媒體類型),就是本機能識別處理的互聯網信息類型
 Accept-Encoding: Accept - Encoding:瀏覽器能夠進行解碼的數據編碼方式,如gzip, deflate, br等;
 Accept-Language: 客戶端瀏覽器所希望的語言種類,當服務器能夠提供一種以上的語言版本時要用到,如zh-CN,zh;q=0.9等;
 Connection:表示是否需要持久連接,keep-alive表示是持久連接;
 cookie:會話cookie信息。
這樣我們就獲取到了一個網頁訪問的http請求報文的報文頭信息,除了請求頭信息還有個信息需要關注,就是下圖黃色標記的General信息:
在這裏插入圖片描述
其中:
 Request URL記錄發送請求的網頁地址;本例中是https://blog.csdn.net/LaoYuanPython
 Request Method:是報文發送的方法,在本例中是get方法,相關http方法請參考《轉:解析HTTP協議六種請求方法,get,head,put,delete,post有什麼區別
 Status Code:請求服務端應答,200表示成功訪問。具體應答碼含義請參考《HTTP響應報文應答狀態碼及含義

這樣我們就獲取了http請求的相關信息,同樣,我們通過瀏覽器可以獲取響應報文相關的信息,大家可以試試。
通過Google瀏覽器,我們可以很方便的捕獲瀏覽器訪問網頁的相關信息,並複製相關有用的信息供應用程序使用。

老猿Python,跟老猿學Python!
博客地址:https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目錄:https://blog.csdn.net/LaoYuanPython/article/details/98245036
請大家多多支持,點贊、評論和加關注!謝謝!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章