Python3爬蟲教程(一)

新手學爬蟲先學爬取整個網頁(靜態)

	我的宗旨是實戰纔是最好的學習方法
	先找一個很多教程都會爬的一個網站mzitu.com(興趣是最好動力)
	先爬下來一個網頁
import requests #請求庫用於發送請求

url = 'https://www.mzitu.com'
page = requests.get(url=url) #也可以直接url,不過這裏習慣了url=
print(page.text)

在這裏插入圖片描述
哦?!這是怎麼回事?
別急,這是大部分網站都會有的一個反爬蟲措施
原因在於這一個反爬蟲措施拒絕直接的請求,解決方法也很簡單
但是再說這一個方法之前我們來思考一個問題
我們先來在瀏覽器打開這個網站,看看瀏覽器是否能夠打開

在這裏插入圖片描述
哦豁,瀏覽器能夠打開不過這個畫面。。。(好刺激啊)
那麼相比聰明的你們已經知道怎麼來避免這一個反爬蟲機制了
沒錯,那就是模擬瀏覽器
按下F12打開瀏覽器自帶的開發者工具,點擊Network
在這裏插入圖片描述
最下面那個紅方框那裏就是你的瀏覽器標誌了,只要我們發送請求的時候帶上這個就能夠模擬成瀏覽器發送請求了

import requests #請求庫用於發送請求

url = 'https://www.mzitu.com'
headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
        }
page = requests.get(url=url,headers=headers) #也可以直接url,不過這裏習慣了url=
print(page.text)

在這裏插入圖片描述
現在網頁已經爬下來了,不過這裏需要注意一點,爬下來的網頁是你鼠標右鍵查看源代碼的代碼,可不是你F12查看的審查元素的代碼
不過爬取審查元素也是可以的,不過這不是新手要學的哦(悄悄告訴你,用selenium)
既然這個知識點學完了,那這幾行代碼看着好亂啊,我們來規範整理一下

import requests #請求庫用於發送請求

headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
        }

def GetHtml(url):
    page = requests.get(url=url,headers=headers) #也可以直接url,不過這裏習慣了url=
    print(page.text)

if __name__ == '__main__':
    url = 'https://www.mzitu.com'
    GetHtml(url)

雖然看着還是那幾行代碼,也沒多什麼,但是這是思想啊
等代碼多了就會省勁了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章