作者：小小明

Pandas數據處理專家，幫助一萬用戶解決數據處理難題。

今天我們打算爬取一下字節跳動的招聘信息：

我們打開開發者工具並訪問：

https://jobs.bytedance.com/experienced/position?keywords=&category=&location=&project=&type=&job_hot_flag=&current=1&limit=10

這次訪問監控到的數據很多，其中這個posts接口才有我們需要的json數據：

觀察響應頭髮現一個重要參數csrf：

說明抖音的網站具備csrf校驗的功能，後文將再介紹如何獲取到這個csrf的token。

查看請求參數：

參數包裝函數

爲了正常爬取時的方便，我們需要先將上面需要的參數，組織成python能夠識別的字典形式。直接複製粘貼有很多需要加雙引號的地方，但我們可以編程解決這個問題。

首先，定義一個處理函數：

import re


def warp_heareder(s):
    print("{")
    lines = s.splitlines()
    for i, line in enumerate(lines):
        k, v = line.split(": ")
        if re.search("[a-zA-Z]", k):
            k = f'"{k}"'
        if re.search("[a-zA-Z]", v):
            v = f'"{v}"'
        print(f"    {k}: {v},")
    print("}")

處理請求頭：

處理post請求數據：

csrf校驗值獲取

首先，清空cookie：

然後刷新頁面，查看網絡請求的抓包情況：

找啊找，終於找到了一個set-cookie的響應頭，而且這個設置cookie參數包括了csrf的設置。那麼這個接口我們就可以用來作爲獲取csrf校驗值的接口。

使用session保存響應頭設置的cookie：

import requests

session = requests.session()
headers = {
   
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
    'Origin': 'https://jobs.bytedance.com',
    'Referer': f'https://jobs.bytedance.com/experienced/position?keywords=&category=&location=&project=&type=&job_hot_flag=&current=1&limit=10'
}
data = {
   
   
    "portal_entrance": 1
}
url = "https://jobs.bytedance.com/api/v1/csrf/token"
r = session.post(url, headers=headers, data=data)
r

結果：

<Response [200]>

查看獲取到的cookie：

cookies = session.cookies.get_dict()
cookies

結果：

{'atsx-csrf-token': 'RDTEznQqdr3O3h9PjRdWjfkSRW79K_G16g85FrXNxm0%3D'}

顯然這個token相對真實需要的存在url編碼，現在對它進行url解碼：

from urllib.parse import unquote

unquote(cookies['atsx-csrf-token'])

結果：

'RDTEznQqdr3O3h9PjRdWjfkSRW79K_G16g85FrXNxm0='

開始爬取第一頁的數據

有了token我們就可以順利的直接訪問接口了：

import requests
import json

headers = {
   
   
    "Accept": "application/json, text/plain, */*",
    "Host": "jobs.bytedance.com",
    "Origin": "https://jobs.bytedance.com",
    "Referer": "https://jobs.bytedance.com/experienced/position?keywords=&category=&location=&project=&type=&job_hot_flag=&current=1&limit=10",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36",
    "x-csrf-token": unquote(cookies['atsx-csrf-token']),
}
data = {
   
   
    "job_category_id_list": [],
    "keyword": "",
    "limit": 10,
    "location_code_list": [],
    "offset": 0,
    "portal_entrance": 1,
    "portal_type": 2,
    "recruitment_id_list": [],
    "subject_id_list": []
}
url = "https://jobs.bytedance.com/api/v1/search/job/posts"
r = session.post(url, headers=headers, data=json.dumps(data))
r

結果：

<Response [200]>

響應碼是200，說明已經順利通過了校驗，現在查看一下數據結構：

r.json()

結果：

使用Pandas對json數據進行處理

import pandas as pd

df = pd.DataFrame(r.json()['data']['job_post_list'])
df.head(3)

結果：

然後我們對各列提取出我們需要的數據：

df.city_info = df.city_info.str['name']
df.recruit_type = df.recruit_type.str['parent'].str['name']
tmp = []
for x in df.job_category.values:
    if x['parent']:
        tmp.append(f"{x['parent']['name']}-{x['name']}")
    else:
        tmp.append(x['name'])
df.job_category = tmp
df.publish_time = df.publish_time.apply(lambda x: pd.Timestamp(x, unit="ms"))
df.head(2)

結果：

再刪除一些，明顯沒有任何用的列：

df.drop(columns=['sub_title', 'job_hot_flag', 'job_subject'], inplace=True)
df.head()

結果：

一次性爬完字節跳動1W+全部職位信息

有了上面的測試基礎，我們就可以組織一下完整的爬取代碼：

import requests
from urllib.parse import unquote
import pandas as pd
import time
import os

session = requests.session()
page = 1500
headers = {
   
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
    'Origin': 'https://jobs.bytedance.com',
    'Referer': f'https://jobs.bytedance.com/experienced/position?keywords=&category=&location=&project=&type=&job_hot_flag=&current=1&limit={page}'
}
data = {
   
   
    "portal_entrance": 1
}
url = "https://jobs.bytedance.com/api/v1/csrf/token"
r = session.post(url, headers=headers, data=data)
cookies = session.cookies.get_dict()

url = "https://jobs.bytedance.com/api/v1/search/job/posts"
headers["x-csrf-token"] = unquote(cookies["atsx-csrf-token"])
data = {
   
   
    "job_category_id_list": [],
    "keyword": "",
    "limit": page,
    "location_code_list": [],
    "offset": 0,
    "portal_entrance": 1,
    "portal_type": 2,
    "recruitment_id_list": [],
    "subject_id_list": []
}
for i in range(11):
    print(f"準備爬取第{i}頁")
    data["offset"] = i*page
    r = None
    while not r:
        try:
            r = session.post(url, headers=headers,
                             data=json.dumps(data), timeout=3)
        except Exception as e:
            print("訪問超時！等待5s", e)
            time.sleep(5)
    df = pd.DataFrame(r.json()['data']['job_post_list'])
    if df.shape[0] == 0:
        print("爬取完畢！！！")
        break
    df.city_info = df.city_info.str['name']
    df.recruit_type = df.recruit_type.str['parent'].str['name']
    tmp = []
    for x in df.job_category.values:
        if x['parent']:
            tmp.append(f"{x['parent']['name']}-{x['name']}")
        else:
            tmp.append(x['name'])
    df.job_category = tmp
    df.publish_time = df.publish_time.apply(
        lambda x: pd.Timestamp(x, unit="ms"))
    df.drop(columns=['sub_title', 'job_hot_flag', 'job_subject'], inplace=True)
    df.to_csv("bytedance_jobs.csv", mode="a", header=not os.path.exists("bytedance_jobs.csv"), index=False)
    print(",".join(df.title.head(10)))
# 對結果去重
df = pd.read_csv("bytedance_jobs.csv")
df.drop_duplicates(inplace=True)
df.to_csv("bytedance_jobs.csv", index=False)
print("共爬取", df.shape[0], "行無重複數據")

結果：

僅7.3秒爬完了字節跳動1W+以上的職位信息。

可以讀取看看：

import pandas as pd

df = pd.read_csv("bytedance_jobs.csv")
df

結果：

有1萬個以上的職位信息。

補充資料

CSRF的含義

CSRF（Cross-site request forgery）也被稱爲 one-click attack或者 session riding，中文全稱是叫跨站請求僞造。一般來說，攻擊者通過僞造用戶的瀏覽器的請求，向訪問一個用戶自己曾經認證訪問過的網站發送出去，使目標網站接收並誤以爲是用戶的真實操作而去執行命令。常用於盜取賬號、轉賬、發送虛假消息等。攻擊者利用網站對請求的驗證漏洞而實現這樣的攻擊行爲，網站能夠確認請求來源於用戶的瀏覽器，卻不能驗證請求是否源於用戶的真實意願下的操作行爲。

CSRF的攻擊原理

比如，博客網站A的後臺存在一個添加文章的功能，爲方便說明，假設它是個get請求，如/admin/add?title=標題&body=內容。要提交這個請求時，會判斷用戶是否已經登錄，如果沒登錄則會自動跳轉到登錄頁面，只有管理員有權限登錄。所以，攻擊者即使知道該請求路徑，也過不了登錄這關。

但是攻擊者在自己的網站或支持富文本編輯的論壇網站B上評論如下的內容：

<img src="http://blog.example/admin/add?title=crsf&body=hack" />

當某個用戶打開網站B時，如果對於網站A的登錄後臺的session還有效，那麼他就會自動向博客網站A後臺發送添加文章的請求，完成攻擊者的目的。這個過程中，攻擊者不需要拿到用戶的cookie就可以完成攻擊。

當然博客網站A可以把校驗改成post請求來避免來着img標籤帶來的攻擊，但仍然無法避免通過javascript模擬post請求帶來的攻擊（將上面html代碼改成JavaScript代碼即可）。

防範CSRF攻擊的方法

開啓token驗證：CSRF 攻擊之所以能夠成功，是因爲黑客可以完全僞造用戶的請求，該請求中所有的用戶驗證信息都是存在於cookie中，因此黑客可以在不知道這些驗證信息的情況下直接利用用戶自己的cookie 來通過安全驗證。要抵禦 CSRF，關鍵在於在請求中放入黑客所不能僞造的信息，並且該信息不存在於 cookie 之中。可以在 HTTP 請求中以參數的形式加入一個隨機產生的 token，並在服務器端建立一個攔截器來驗證這個 token，如果請求中沒有token或者 token 內容不正確，則認爲可能是 CSRF 攻擊而拒絕該請求。token 在用戶登陸後產生並放於session之中，然後在每次請求時把token 從 session 中拿出，與請求中的 token 進行比對。

一些問題的解釋

字節職位的服務本身並不需要防範CSRF攻擊，只是因爲框架默認開啓了這項認證，我們也就只需根據規則完成這個認證，證明我跟上一訪問是同一個人即可。

爲了使python的訪問能緩存cooike相關的信息，所以我使用了session會話，響應頭設置的cookie都會保留下來。

我使用r = session.post(url, headers=headers, data=json.dumps(data))而不是直接使用r = session.post(url, headers=headers, data=data)的原因是字節跳動nginx服務器json文本校驗的原因，requests庫內部將字典對象轉爲json文本的結果無法被其nginx服務器解析，但直接使用json庫將字典對象轉換的json文本卻可以被nginx服務器解析通過（不信可以自己嘗試）。

[爬蟲]字節跳動招聘爬取實戰-csrf校驗

參數包裝函數

csrf校驗值獲取

開始爬取第一頁的數據

使用Pandas對json數據進行處理

一次性爬完字節跳動1W+全部職位信息

補充資料

CSRF的含義

CSRF的攻擊原理

防範CSRF攻擊的方法

一些問題的解釋

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

Linux_修復GRUB引導故障的3種方法！

超詳細zabbix 監控項,自定義觸發器,自定義報警

原型的缺陷之共享缺陷

Flutter應用程序版本更新與自動升級配置方法

VS 常用快捷鍵說明

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結