"""
步驟:
1 指定URL
2 發起請求
3 獲取響應數據
4 持久化存儲
案例1:網頁採集器
反反爬蟲方法:
UA僞裝 user-agent請求載體身份標識:1 瀏覽器 2 爬蟲
門戶網站的服務器會檢測對應請求的載體身份標識,如果不是瀏覽器,則表示該請求爲不正常的請求
UA就是僞裝成瀏覽器
"""
import requests
if __name__=="__main__":
#ua僞裝。在 開發者工具-network-headers 中找請求頭
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
}
url = 'https://www.sogou.com/web'
#處理url攜帶的參數,封裝到字典中
keyword = input("錄入你要搜索的關鍵詞:")
param = {
'query': keyword
}
response = requests.get(url= url,params=param,headers=headers)
page_text = response.text
# print(page_text)
fileName = keyword+'.html'
with open("./"+fileName,'w',encoding='utf-8')as fp:
fp.write(page_text)
print("爬取數據完畢")