Python爬蟲實戰,requests+time模塊,爬取某招聘網站數據並保存csv文件(附源碼)

前言

今天給大家介紹的是Python爬取某招聘網站數據並保存本地,在這裏給需要的小夥伴們代碼,並且給出一點小心得。

首先是爬取之前應該儘可能僞裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文
本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對招聘網站數據進行爬取。

在每次進行爬蟲代碼的編寫之前,我們的第一步也是最重要的一步就是分析我們的網頁。

通過分析我們發現在爬取過程中速度比較慢,所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度。

開發工具

Python版本: 3.8

相關模塊:

requests模塊

csv模塊

time模塊

環境搭建

安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。

思路分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具,查看我們想要的招聘數據在哪裏
這裏我們需要頁面數據就可以了

代碼實現

f = open('招聘數據.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '標題',
    '地區',
    '公司名字',
    '薪資',
    '學歷',
    '經驗',
    '公司標籤',
    '詳情頁',
])

csv_writer.writeheader() # 寫入表頭
for page in range(1, 31):
    print(f'------------------------正在爬取第{page}頁-------------------------')
    time.sleep(1)
    # 1. 發送請求
    #url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
    url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
    # headers 請求頭 用來僞裝python代碼, 防止被識別出是爬蟲程序, 然後被反爬
    # pycharm裏面 先全部選中 按住 ctrl +R 用正則表達式命令 批量替換數據
    # cookie: 用戶信息, 常用於檢測是否有登陸賬號
    # referer: 防盜鏈, 告訴服務器我們請求的url地址 是從哪裏跳轉過來的 (動態網頁數據 數據包 要比較多)
    # user-agent: 瀏覽器的基本標識
    headers = {
        'cookie': '你的Cookie',
        'referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    }
    data = {
        'first': 'false',
        'pn': page,
        'kd': 'python',
        'sid': 'bf8ed05047294473875b2c8373df0357'
    }
    # response 自定義變量 可以自己定義  <Response [200]> 獲取服務器給我們響應數據
    response = requests.post(url=url, data=data, headers=headers)
    # 200 狀態碼標識請求成功
    # print(response.text) # 獲取響應體的文本數據 字符串數據類型
    # print(type(response.text))
    # print(response.json()) # 獲取響應體的json字典數據 字典數據類型
    # print(type(response.json()))
    #  2. 獲取數據
    # print(response.json())
    # pprint.pprint(response.json())
    #  3. 解析數據 json數據最好解析 非常好解析, 就根據字典鍵值對取值
    # 根據冒號左邊的內容, 提取冒號右邊的內容
    result = response.json()['content']['positionResult']['result']
    # 列表數據類型, 但是這個列表裏面的元素, 是字典數據類型
    # pprint.pprint(result)
    # 循環遍歷  從 result 列表裏面 把元素一個一個提取出來
    for index in result:
        # pprint.pprint(index)
        # href = index['positionId']
        href = f'https://www.lagou.com/jobs/{index["positionId"]}.html'
        dit = {
            '標題': index['positionName'],
            '地區': index['city'],
            '公司名字': index['companyFullName'],
            '薪資': index['salary'],
            '學歷': index['education'],
            '經驗': index['workYear'],
            '公司標籤': ','.join(index['companyLabelList']),
            '詳情頁': href,
        }
        # ''.join() 把列表轉成字符串 '免費班車',
        csv_writer.writerow(dit)
        print(dit)

Cookie如何獲取如圖所示

結果展示

最後
今天的分享到這裏就結束了 ,感興趣的朋友也可以去試試哈

對文章有問題的,或者有其他關於python的問題,可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話,可以關注一下我,或者給文章點贊(/≧▽≦)/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章