Python3爬蟲教程（一）

原創

2020-06-16 14:29

新手學爬蟲先學爬取整個網頁（靜態）

	我的宗旨是實戰纔是最好的學習方法
	先找一個很多教程都會爬的一個網站mzitu.com（興趣是最好動力）
	先爬下來一個網頁

import requests #請求庫用於發送請求

url = 'https://www.mzitu.com'
page = requests.get(url=url) #也可以直接url，不過這裏習慣了url=
print(page.text)

哦？！這是怎麼回事？
別急，這是大部分網站都會有的一個反爬蟲措施
原因在於這一個反爬蟲措施拒絕直接的請求，解決方法也很簡單
但是再說這一個方法之前我們來思考一個問題
我們先來在瀏覽器打開這個網站，看看瀏覽器是否能夠打開

哦豁，瀏覽器能夠打開不過這個畫面。。。（好刺激啊）
那麼相比聰明的你們已經知道怎麼來避免這一個反爬蟲機制了
沒錯，那就是模擬瀏覽器
按下F12打開瀏覽器自帶的開發者工具，點擊Network

最下面那個紅方框那裏就是你的瀏覽器標誌了，只要我們發送請求的時候帶上這個就能夠模擬成瀏覽器發送請求了

import requests #請求庫用於發送請求

url = 'https://www.mzitu.com'
headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
        }
page = requests.get(url=url,headers=headers) #也可以直接url，不過這裏習慣了url=
print(page.text)

現在網頁已經爬下來了，不過這裏需要注意一點，爬下來的網頁是你鼠標右鍵查看源代碼的代碼，可不是你F12查看的審查元素的代碼
不過爬取審查元素也是可以的，不過這不是新手要學的哦（悄悄告訴你，用selenium）
既然這個知識點學完了，那這幾行代碼看着好亂啊，我們來規範整理一下

import requests #請求庫用於發送請求

headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
        }

def GetHtml(url):
    page = requests.get(url=url,headers=headers) #也可以直接url，不過這裏習慣了url=
    print(page.text)

if __name__ == '__main__':
    url = 'https://www.mzitu.com'
    GetHtml(url)

雖然看着還是那幾行代碼，也沒多什麼，但是這是思想啊
等代碼多了就會省勁了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python3爬蟲教程（一）

新手學爬蟲先學爬取整個網頁（靜態）

lightdb hash index的性能和限制

Python3爬蟲教程（五）

微信公衆號開發教程（序）

Python3爬蟲教程（一）

微信公衆號開發教程（一）

Python3爬蟲教程（四）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結