網絡爬蟲筆記--01

原創

meili1021

2020-04-22 23:33

純零基礎學習爬蟲，開局來套“嵩天教授的Python網絡爬蟲與信息提取課程”，小白就要有小白的自覺，不貪多，要務實。

引入

1）The website is the API …

2）學習路徑：Requests獲得網頁信息，robots.txt網絡爬蟲排除標準，Beautiful.Soup解析HTML頁面，Projects實戰項目A/B，Re正則表達式詳解，提取頁面關鍵信息，Scrapy*網絡爬蟲原理，專業爬蟲框架。

3）8個內容單元+4個實例單元

4）Python語言開發工具選擇，我用pycharm，anaconda&jupyter botebook

單元1：Requests庫入門

1.1 Requests庫安裝

http://www.python-requests.org

conda install requests

1. 1. 驗證是否安裝成功

轉存失敗重新上傳取消轉存失敗重新上傳取消

1.1.2 Requests庫的7個主要方法

requests.request() 構造一個請求，支撐以下各方法的基礎方法

requests.get() 獲取HTML網頁的主要方法，對應於HTTP的GET

requests.head() 獲取HTML網頁的頭信息方法，對應於HTTP的HEAD

requests.post() 向HTML網頁提交POST請求的方法，對應於HTTP的POST

requests.put() 向HTML網頁提交PUT請求的方法，對應於HTTP的PUT

requests.patch() 向HTML網頁提交局部修改請求，對應於HTTP的PATCH

requests.delete() 向HTML網頁提交刪除請求，對應於HTTP的DELETE

1.1.3 requests.request()方法

1.1.4 requests.get()方法

返回reponse對象，有5個屬性

r.statuts_code：

r.text：

r.encoding：

r.apparent_encoding：

r.content：HTTP響應內容的二進制形式

1.2 爬取網頁的通用代碼框架

網絡連接有風險，異常處理很重要。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

網絡爬蟲筆記--01

引入

單元1：Requests庫入門

1.1 Requests庫安裝

驗證是否安裝成功

1.1.2 Requests庫的7個主要方法

1.1.3 requests.request()方法

1.1.4 requests.get()方法

1.2 爬取網頁的通用代碼框架

常用的 Git 指令

sm4加密工具類

Datawhale 零基礎入門CV賽事學習筆記--第4次打卡模型訓練與驗證

Datawhale 零基礎入門CV賽事學習筆記--第5次打卡

零基礎入門數據挖掘--二手車交易價格預測之三--模型融合

Datawhale 零基礎入門CV賽事學習筆記--第3次打卡-字符識別模型

零基礎入門數據挖掘--二手車交易價格預測之一--特徵工程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結