python爬蟲，網頁採集器

原創

2020-03-02 07:22

"""
步驟：
1 指定URL
2 發起請求
3 獲取響應數據
4 持久化存儲

案例1：網頁採集器

反反爬蟲方法：
UA僞裝 user-agent請求載體身份標識：1 瀏覽器 2 爬蟲
門戶網站的服務器會檢測對應請求的載體身份標識，如果不是瀏覽器，則表示該請求爲不正常的請求
UA就是僞裝成瀏覽器

"""

import requests
if __name__=="__main__":
    #ua僞裝。在 開發者工具-network-headers 中找請求頭
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
    }
    url = 'https://www.sogou.com/web'
    #處理url攜帶的參數，封裝到字典中
    keyword = input("錄入你要搜索的關鍵詞：")
    param = {

        'query': keyword

    }
    response =  requests.get(url= url,params=param,headers=headers)
    page_text = response.text
   # print(page_text)
    fileName = keyword+'.html'
    with open("./"+fileName,'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print("爬取數據完畢")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

輕便的python

python解釋型語言面嚮對象語言跨平臺語言簡單，使程序員集中精力於解決問題而不是語言本身。對比：Perl只適合小的程序，大的程序就要用python。配置環境Windows下：1 去官網下載合適的python版本下載2 傻瓜式安裝，並配

2020-06-19 19:59:18

bs4解析器——爬取三國演義目錄和內容

''' 爬取三國演義的目錄和內容 ''' import requests from bs4 import BeautifulSoup if __name__ == '__main__': headers = {

2020-06-19 19:59:08

這個python用法太優雅，一定要轉

python數文件行數最簡單的方法是使用enumerate方法，但是如果文件很大的話，這個方法就有點慢了，我們可以逐塊的讀取文件的內容，然後按塊來數塊內的\n數，從而確定行數。如下實現代碼： def blocks(file, si

2020-06-13 08:40:22

python爬取食藥監局企業信息

2020-03-03 09:51:26

9行代碼實現python爬蟲入門

2020-03-02 07:22:14

優雅的python

2020-02-20 19:19:17

Win下如何安裝numpy

2020-02-20 19:19:17

python 學習筆記

2020-02-20 19:19:17

輕便的python

python解釋型語言面嚮對象語言跨平臺語言簡單，使程序員集中精力於解決問題而不是語言本身。對比：Perl只適合小的程序，大的程序就要用python。配置環境Windows下：1 去官網下載合適的python版本下載2 傻瓜式安裝，並配

2020-06-19 19:59:18

bs4解析器——爬取三國演義目錄和內容

''' 爬取三國演義的目錄和內容 ''' import requests from bs4 import BeautifulSoup if __name__ == '__main__': headers = {

2020-06-19 19:59:08

這個python用法太優雅，一定要轉

python數文件行數最簡單的方法是使用enumerate方法，但是如果文件很大的話，這個方法就有點慢了，我們可以逐塊的讀取文件的內容，然後按塊來數塊內的\n數，從而確定行數。如下實現代碼： def blocks(file, si

2020-06-13 08:40:22

python爬取食藥監局企業信息

2020-03-03 09:51:26

9行代碼實現python爬蟲入門

2020-03-02 07:22:14

優雅的python

2020-02-20 19:19:17

Win下如何安裝numpy

2020-02-20 19:19:17

24小時熱門文章

最新文章

最新評論文章