python爬蟲學習筆記(一)

HTTP協議與requests庫

HTTP(Hypertext Transfer Protocol)超文本傳輸協議

HTTP是一個基於“請求與響應”模式的,無狀態的應用層協議

HTTP協議採用URL作爲定位網絡資源的標識

URL格式     http://host [:port] [path]

host:表示合法的Internet主機域名或IP地址

port:端口號,缺省爲80

path:請求資源的路徑(服務器內部路徑)

HTTP URL理解:

URL是通過HTTP協議存取資源的Internet路徑,一個URL對應一個數據資源。就好比電腦裏一個文件的路徑,只不過這個文件是存在互聯網上。

在HTTP協議的“世界”裏,網絡通道和服務器就是一個黑盒子,它能看到的就是URL鏈接和對URL鏈接的相關操作

requests庫介紹

requests庫是目前爬取網頁比較好的第三方庫,http://www.python-requests.org

requests庫其實只有“一個”方法,其餘方法都是由request方法封裝的

requests庫的方法跟HTTP協議一一對應

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章