純零基礎學習爬蟲,開局來套“嵩天教授的Python網絡爬蟲與信息提取課程”,小白就要有小白的自覺,不貪多,要務實。
引入
1)The website is the API …
2)學習路徑:Requests獲得網頁信息,robots.txt網絡爬蟲排除標準,Beautiful.Soup解析HTML頁面,Projects實戰項目A/B,Re正則表達式詳解,提取頁面關鍵信息,Scrapy*網絡爬蟲原理,專業爬蟲框架。
3)8個內容單元+4個實例單元
4)Python語言開發工具選擇,我用pycharm,anaconda&jupyter botebook
單元1:Requests庫入門
1.1 Requests庫安裝
http://www.python-requests.org
conda install requests
-
-
-
驗證是否安裝成功
-
-
1.1.2 Requests庫的7個主要方法
requests.request() 構造一個請求,支撐以下各方法的基礎方法
requests.get() 獲取HTML網頁的主要方法,對應於HTTP的GET
requests.head() 獲取HTML網頁的頭信息方法,對應於HTTP的HEAD
requests.post() 向HTML網頁提交POST請求的方法,對應於HTTP的POST
requests.put() 向HTML網頁提交PUT請求的方法,對應於HTTP的PUT
requests.patch() 向HTML網頁提交局部修改請求,對應於HTTP的PATCH
requests.delete() 向HTML網頁提交刪除請求,對應於HTTP的DELETE
1.1.3 requests.request()方法
1.1.4 requests.get()方法
返回reponse對象,有5個屬性
r.statuts_code:
r.text:
r.encoding:
r.apparent_encoding:
r.content:HTTP響應內容的二進制形式
1.2 爬取網頁的通用代碼框架
網絡連接有風險,異常處理很重要。