python爬蟲,網頁採集器

"""
步驟:
1 指定URL
2 發起請求
3 獲取響應數據
4 持久化存儲

案例1:網頁採集器

反反爬蟲方法:
UA僞裝 user-agent請求載體身份標識:1 瀏覽器 2 爬蟲
門戶網站的服務器會檢測對應請求的載體身份標識,如果不是瀏覽器,則表示該請求爲不正常的請求
UA就是僞裝成瀏覽器

"""

import requests
if __name__=="__main__":
    #ua僞裝。在 開發者工具-network-headers 中找請求頭
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
    }
    url = 'https://www.sogou.com/web'
    #處理url攜帶的參數,封裝到字典中
    keyword = input("錄入你要搜索的關鍵詞:")
    param = {

        'query': keyword

    }
    response =  requests.get(url= url,params=param,headers=headers)
    page_text = response.text
   # print(page_text)
    fileName = keyword+'.html'
    with open("./"+fileName,'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print("爬取數據完畢")











 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章