入門小遠學爬蟲（二）簡單GET型網頁爬蟲實戰——“前程無憂”爬蟲崗位信息的爬取之（一）網頁分析

原創

2021-01-30 10:20

文章目錄

前程無憂網站
Step1：找準自己需要什麼東西
Step2：進行網頁分析
Step3：利用XPath Helper插件寫出所需信息的大致Xpath路徑
小結

前程無憂網站

小遠想知道全國各地的爬蟲開發工程師的招聘要求，並進行橫向比較和分析。大型招聘網站（比如前程無憂）上的崗位需求都是成百上千條，顯然，網上的招聘信息太多，自己點開太過繁瑣和複雜，手動完成不現實。
所以，
上爬蟲，
幹！
目標，“前程無憂”的爬蟲崗信息（網址：https://jobs.51job.com/pachongkaifa）

Step1：找準自己需要什麼東西

Step2：進行網頁分析

使用Chrome瀏覽器打開網頁，發現從第一頁到第十三頁的URL（統一資源定位器，就是網絡地址）分別對應着“https://jobs.51job.com/pachongkaifa/p1/”到“https://jobs.51job.com/pachongkaifa/p13/”，由於網頁佈局都是一樣的，所以只需要完成一頁再寫一個循環就可以完成所有信息的爬取。

查看網頁源代碼

右鍵->檢查

或者直接Ctrl+Shift+C，選中要檢查的內容，便可以快速定位到要檢查的內容在源代碼中的位置，個人比較推薦這種方法、

以防萬一，需要看一眼這個網頁獲取服務器上數據的方式是GET還是POST，一般來說，如果不涉及登錄信息或者其他驗證步驟的網頁都是GET方式獲取的，但此處爲了講解得更加詳細，展示一下。（關於GET和POST以及其他HTML的相關知識請自行百度）

由於我們需要的內容組成爲一個一個小的單元（本例中一個崗位就有自己的若干屬性信息，如“崗位名稱”、“所屬公司”、“薪資待遇"等等），所以抽絲剝繭之後，需要整理出一個該網頁所需信息的結構框架

大致如下兩圖所示：

Step3：利用XPath Helper插件寫出所需信息的大致Xpath路徑

關於本插件，博主有在之前的文章中提到，不再贅述

此處博主找到的Xpath路徑爲

//div[@class=“detlist gbox”]/div

具體將本版塊拿下來之後需要做什麼，需要在程序中完成，將在之後的文章中陸續更新。

下一課已經更新

小結

分析網頁三部曲：
1、找準自己需要獲取的網頁內容並檢查獲取方式（GET、POST）
2、查看源代碼，理解其網頁框架
3、通過插件更快地確定所需內容的Xpath路徑。

如果覺得博主寫的還不錯的，歡迎點贊、評論、加關注，大家的訪問就是博主更新文章不竭的源動力！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

入門小遠學爬蟲（二）簡單GET型網頁爬蟲實戰——“前程無憂”爬蟲崗位信息的爬取之（一）網頁分析

文章目錄

前程無憂網站

Step1：找準自己需要什麼東西

Step2：進行網頁分析

Step3：利用XPath Helper插件寫出所需信息的大致Xpath路徑

小結

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

阿里雲的文檔還是非常差的

Vscode中開發Flutter應用及使用Android 真機與虛擬機調試

【入門1】順序結構 P1000 超級瑪麗遊戲字符串輸出

爲什麼要學go語言，golang的優勢有哪些？

入門小遠學爬蟲（二）簡單GET型網頁爬蟲實戰——“前程無憂”爬蟲崗位信息的爬取之（一）網頁分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結