Python爬蟲學習日誌（1）

原創

2020-06-15 07:29

櫻桃青衣，蕉葉覆鹿。人生苦短，我用Python。

我的第一篇日誌

1.筆記

我的第一篇日誌

今天開始記錄自己學習Python爬蟲的過程。
學習書籍：《Python3 網絡爬蟲開發實戰》崔慶才著噹噹購買地址 http://product.dangdang.com/25249602.html
學習視頻：《Python 爬蟲視頻教程全集》中國大學 MOOC B站播放地址

1.筆記

視頻課程

總體內容
開發工具
Anaconda+PyCharm (Python 3.7)
爬取網頁的通用代碼框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() #如果狀態不是200，引發HTTPError異常
        r.encoding = r.apparent_encoding #apprent_encoding是網頁的準確編碼方式
        return r.text
    except:
        return "產生異常"

if __name__=="__main__":
    url = "http://www.baidu.com"
    # url = "www.baidu.com"
    print(getHTMLText(url))

當 url = “www.baidu.com”時，輸出結果爲：產生異常

HTTP協議

PATCH與PUT的區別：
URL位置有一組數據共有20個字段，其中包括UserName。
要求：用戶修改UserName，而保持其他不變。

PATCH，僅向URL提交UserName的局部更新請求，節省帶寬。
PUT，必須將所有20個字段一併提交到URL，未提交字段將被刪除。

Requests庫的主要方法
requests.request(method, url, **kwargs)
method: get, head, post, put, patch, delete
**kwargs: 訪問控制的參數，均爲可選項。(params, data, json, headers)(cookie, auth, files, timeout)(proxies, allow_redirects, stream, verify, cert)

重點掌握 get 和 head 兩個。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬蟲學習日誌（2）

Python爬蟲學習日誌（2） 1.筆記視頻課程各種爬蟲的適用範圍 Robots 協議 http://www.jd.com/robots.txt http://…/robots.txt 網站的根目錄 #註釋，代表所有，/代

2020-06-15 07:29:16

Python爬蟲學習日誌（4）

目錄 Beautiful Soup庫1.作用2.BeautifulSoup類3.基本元素4.庫的理解5.基於bs4庫的HTML內容遍歷方法6.基於bs4庫的HTML格式輸出 Beautiful Soup庫 B和S要大寫 1.作用

2020-06-15 07:29:06

Python爬蟲學習日誌（5）

目錄信息的標記與提取1.HTML的信息標記2.信息提取的一般方法3.基於bs4庫的HTML內容查找方法信息的標記與提取 1.HTML的信息標記 HTML（Hyper Text Markup Language）是WWW（Wor

2020-06-15 07:29:06

Python爬蟲學習日誌（7）

正則表達式正則表達式1.概念正則表達式的作用正則表達式的使用正則表達式的語法：由字符和操作符構成正則表達式的常用操作符正則表達式語法實例經典正則表達式實例2.Re庫的基本使用正則表達式的表示類型Re庫主要功能函數Re庫的等價用法R

2020-06-15 07:29:06

Python爬蟲學習日誌（8）

實例2：噹噹網商品信息的定向爬蟲編寫爬蟲1.功能描述在噹噹網站搜索關鍵詞“東野圭吾”2.程序的結構設計操作步驟源代碼3.存在的問題編寫爬蟲 1.功能描述（淘寶網的爬取必須要模擬用戶登錄）目標：獲取噹噹搜索頁面的信息，提取

2020-06-15 07:29:06

Python爬蟲學習日誌（6）

實例1：中國大學排名定向爬蟲編寫爬蟲1.分析2.源代碼3.程序優化編寫爬蟲 1.分析最好大學網 2019中國大學排名：http://www.zuihaodaxue.com/Greater_China_Ranking201

2020-06-15 07:29:06

Python爬蟲學習日誌（9）

Scrapy爬蟲框架 Scrapy不是一個函數功能庫而是一個爬蟲框架1.Scrapy爬蟲框架結構“5+2”結構2.Scrapy爬蟲框架解析不需修改的部分Downloader Middleware（中間鍵）用戶編寫的部分Spider

2020-06-15 07:29:06

Python爬蟲學習日誌（10）

實例3：股票數據定向爬蟲，使用兩種爬取方法編寫爬蟲1. 功能描述候選數據網站的選擇2. 技術路線：requests-re源代碼代碼優化3. 技術路線：Scrapy爬蟲框架步驟源代碼代碼優化更多4. 存在的問題編寫爬蟲 1. 功

2020-06-15 07:29:06

Python爬蟲學習日誌（2）

Python爬蟲學習日誌（2） 1.筆記視頻課程各種爬蟲的適用範圍 Robots 協議 http://www.jd.com/robots.txt http://…/robots.txt 網站的根目錄 #註釋，代表所有，/代

2020-06-15 07:29:16

Python爬蟲學習日誌（4）

目錄 Beautiful Soup庫1.作用2.BeautifulSoup類3.基本元素4.庫的理解5.基於bs4庫的HTML內容遍歷方法6.基於bs4庫的HTML格式輸出 Beautiful Soup庫 B和S要大寫 1.作用

2020-06-15 07:29:06

Python爬蟲學習日誌（5）

目錄信息的標記與提取1.HTML的信息標記2.信息提取的一般方法3.基於bs4庫的HTML內容查找方法信息的標記與提取 1.HTML的信息標記 HTML（Hyper Text Markup Language）是WWW（Wor

2020-06-15 07:29:06

Python爬蟲學習日誌（7）

正則表達式正則表達式1.概念正則表達式的作用正則表達式的使用正則表達式的語法：由字符和操作符構成正則表達式的常用操作符正則表達式語法實例經典正則表達式實例2.Re庫的基本使用正則表達式的表示類型Re庫主要功能函數Re庫的等價用法R

2020-06-15 07:29:06

Python爬蟲學習日誌（8）

實例2：噹噹網商品信息的定向爬蟲編寫爬蟲1.功能描述在噹噹網站搜索關鍵詞“東野圭吾”2.程序的結構設計操作步驟源代碼3.存在的問題編寫爬蟲 1.功能描述（淘寶網的爬取必須要模擬用戶登錄）目標：獲取噹噹搜索頁面的信息，提取

2020-06-15 07:29:06

Python爬蟲學習日誌（6）

實例1：中國大學排名定向爬蟲編寫爬蟲1.分析2.源代碼3.程序優化編寫爬蟲 1.分析最好大學網 2019中國大學排名：http://www.zuihaodaxue.com/Greater_China_Ranking201

2020-06-15 07:29:06

Python爬蟲學習日誌（9）

Scrapy爬蟲框架 Scrapy不是一個函數功能庫而是一個爬蟲框架1.Scrapy爬蟲框架結構“5+2”結構2.Scrapy爬蟲框架解析不需修改的部分Downloader Middleware（中間鍵）用戶編寫的部分Spider

2020-06-15 07:29:06

24小時熱門文章

最新文章

最新評論文章