【Python行業分析1】BOSS直聘招聘信息獲取之網站分析

BOSS直聘 搜索界面分析

進入boss官網,按照我們的日常查詢習慣,鍵入關鍵字、職務類別、查詢的城市
在這裏插入圖片描述

基礎查詢條件

https://www.zhipin.com/job_detail/?query=python&city=101280600&industry=&position=100109
我們看到boss的路由格式爲query=關鍵字&city=城市編碼&industry=公司行業&position=職務類別

神器F12

我們再打開F12查看Network,其中有city.json和position.json文件
city.json是記錄了所有的城市編碼信息
position.json是記錄了所有的職務類別編碼信息
在這裏插入圖片描述

我們需要查看到更多的數據,點擊翻頁看看翻頁的路由格式是什麼樣的?

https://www.zhipin.com/c101280600-p100109/?query=python&page=2&ka=page-2
路由格式發生了也變化,對city=101280600&position=100109進行了組合c101280600-p100109
我們在生成路由時也需要按該規則生成,但如果你是順序訪問可以在next標籤中獲取這個地址
分頁標識是由page=2,ka=page-2在後面你會發現,它只是當前新增的查詢條件信息
在這裏插入圖片描述
boss對粗的查詢是做了返回數據的限制的,我們只能查看到近10頁的數據
但你細分查詢條件後發現還是會有很多數據的,所以我們需要來拼接更多的條件來獲取多的數據
還是需要F12來解決

工作年限

在這裏插入圖片描述
https://www.zhipin.com/c101280600-p100109/e_105/?query=python&ka=sel-exp-105
sel-exp-0

  • sel-exp-0 不限
  • sel-exp-108 在校生
  • sel-exp-102 應屆生
  • sel-exp-103 1年以內
  • sel-exp-104 1-3年
  • sel-exp-105 3-5年
  • sel-exp-106 5-10年
  • sel-exp-107 10年以上

學歷要求

在這裏插入圖片描述
https://www.zhipin.com/c101280600-p100109/d_209-e_105/?query=python&ka=sel-degree-209

  • sel-degree-0 不限
  • sel-degree-209 初中及以下
  • sel-degree-208 中專/中技
  • sel-degree-206 高中
  • sel-degree-202 大專
  • sel-degree-203 本科
  • sel-degree-204 碩士
  • sel-degree-205 博士

薪資要求

在這裏插入圖片描述
https://www.zhipin.com/c101280600-p100109/y_2-d_206-e_105/?query=python&ka=sel-salary-2

  • sel-salary-0 不限
  • sel-salary-1 3K以下
  • sel-salary-2 3-5K
  • sel-salary-3 5-10K
  • sel-salary-4 10-15K
  • sel-salary-5 15-20K
  • sel-salary-6 20-30K
  • sel-salary-7 30-50K
  • sel-salary-8 50K以上

最終的路由格式

查詢Python行業內,不同城市、工作年限、學歷要求、薪資範圍的招聘信息
https://www.zhipin.com/c101280600-p100109/y_2-d_206-e_105/?query=python&page=1
這些過濾條件以及可以爲我們篩選出很多照片信息了

那具體招聘信息的信息提取呢?

我們需要什麼信息呢?

  • 招聘的職位說明
  • 職位所在城市
  • 發佈時間
  • 薪資範圍
  • 工作年限
  • 學歷要求
  • 職務關鍵字
  • 公司名稱
  • 福利信息
  • 職務描述

招聘列表提供的數據

先看看在查詢的列表頁中有哪些信息

  • 招聘的職位說明
  • 職位所在城市
  • 發佈時間
  • 薪資範圍
  • 工作年限
  • 學歷要求
  • 聯繫人
  • 職務關鍵字
  • 公司名稱
  • 公司融資階段
  • 公司規模
  • 福利信息

重點來了,我們肯定需要打開F12,查看下頁面源代碼,看有沒有隱藏信息,好像是並沒有
但是我看到了 data-jid 是招聘信息的標識,這個可以爲獲取數據是去重提供幫助,收下了

那以下信息是我們需要獲取的

  • 招聘的職位說明
  • 職位所在城市
  • 發佈時間
  • 薪資範圍
  • 工作年限
  • 學歷要求
  • 職務關鍵字
  • 公司名稱
  • 福利信息

還有個很重要的 崗位要求說明,在後期的招聘分析中是需要的,在列表中並沒有,再繼續挖掘下,GoGoGo

職務描述

當我們把鼠標停留在招聘信息上時,會彈出職位描述的彈出,真的是意外收穫啊
F12走起,可以看到有新的請求發出了

https://www.zhipin.com/wapi/zpgeek/view/job/card.json?jid=201963e14821c43103F73du_FVI~&lid=nlp-2vJ1koSrjDw.search.273
路由所需的參數是jid和lid,正好是我們上面找到的 data-jid 是招聘信息的標識,再回去找下data-lid也是存在的

最終的數據信息

  • 招聘的職位說明
  • 職位所在城市
  • 發佈時間
  • 薪資範圍
  • 工作年限
  • 學歷要求
  • 職務關鍵字
  • 公司名稱
  • 福利信息
  • 職務描述

BOSS招聘信息爬取

到此我們需要的信息就全部找到了,點波關注,後面會繼續分享 如何爬取這些數據

8小時Python零基礎輕鬆入門

微信搜一搜關注博主領取更多學習諮詢在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章