網絡爬蟲筆記--01

純零基礎學習爬蟲,開局來套“嵩天教授的Python網絡爬蟲與信息提取課程”,小白就要有小白的自覺,不貪多,要務實。

引入

1)The website is the API …

2)學習路徑:Requests獲得網頁信息,robots.txt網絡爬蟲排除標準,Beautiful.Soup解析HTML頁面,Projects實戰項目A/B,Re正則表達式詳解,提取頁面關鍵信息,Scrapy*網絡爬蟲原理,專業爬蟲框架。

3)8個內容單元+4個實例單元

4)Python語言開發工具選擇,我用pycharm,anaconda&jupyter botebook

單元1:Requests庫入門

1.1 Requests庫安裝

http://www.python-requests.org

conda install requests

      1. 驗證是否安裝成功

 

uploading.4e448015.gif轉存失敗重新上傳取消uploading.4e448015.gif轉存失敗重新上傳取消

 

1.1.2 Requests庫的7個主要方法

requests.request() 構造一個請求,支撐以下各方法的基礎方法

requests.get() 獲取HTML網頁的主要方法,對應於HTTP的GET

requests.head() 獲取HTML網頁的頭信息方法,對應於HTTP的HEAD

requests.post() 向HTML網頁提交POST請求的方法,對應於HTTP的POST

requests.put() 向HTML網頁提交PUT請求的方法,對應於HTTP的PUT

requests.patch() 向HTML網頁提交局部修改請求,對應於HTTP的PATCH

requests.delete() 向HTML網頁提交刪除請求,對應於HTTP的DELETE

1.1.3 requests.request()方法

1.1.4 requests.get()方法

返回reponse對象,有5個屬性

r.statuts_code:

r.text:

r.encoding:

r.apparent_encoding:

r.content:HTTP響應內容的二進制形式

1.2 爬取網頁的通用代碼框架

網絡連接有風險,異常處理很重要。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章