入門小遠學爬蟲(二)簡單GET型網頁爬蟲實戰——“前程無憂”爬蟲崗位信息的爬取之(一)網頁分析


前程無憂網站

小遠想知道全國各地的爬蟲開發工程師的招聘要求,並進行橫向比較和分析。大型招聘網站(比如前程無憂)上的崗位需求都是成百上千條,顯然,網上的招聘信息太多,自己點開太過繁瑣和複雜,手動完成不現實。
所以,
上爬蟲
幹!
目標,“前程無憂”的爬蟲崗信息(網址:https://jobs.51job.com/pachongkaifa




Step1:找準自己需要什麼東西

我需要的數據
在這裏插入圖片描述

Step2:進行網頁分析

使用Chrome瀏覽器打開網頁,發現從第一頁到第十三頁的URL(統一資源定位器,就是網絡地址)分別對應着“https://jobs.51job.com/pachongkaifa/p1/”到“https://jobs.51job.com/pachongkaifa/p13/”,由於網頁佈局都是一樣的,所以只需要完成一頁再寫一個循環就可以完成所有信息的爬取。

查看網頁源代碼

右鍵->檢查
在這裏插入圖片描述
或者直接Ctrl+Shift+C,選中要檢查的內容,便可以快速定位到要檢查的內容在源代碼中的位置,個人比較推薦這種方法、

網頁檢查

以防萬一,需要看一眼這個網頁獲取服務器上數據的方式是GET還是POST,一般來說,如果不涉及登錄信息或者其他驗證步驟的網頁都是GET方式獲取的,但此處爲了講解得更加詳細,展示一下。(關於GET和POST以及其他HTML的相關知識請自行百度

查看GET和POST

由於我們需要的內容組成爲一個一個小的單元(本例中一個崗位就有自己的若干屬性信息,如“崗位名稱”、“所屬公司”、“薪資待遇"等等),所以抽絲剝繭之後,需要整理出一個該網頁所需信息的結構框架

大致如下兩圖所示:
框架1
框架2

Step3:利用XPath Helper插件寫出所需信息的大致Xpath路徑

關於本插件,博主有在之前的文章中提到,不再贅述

此處博主找到的Xpath路徑爲

//div[@class=“detlist gbox”]/div

插件內容

具體將本版塊拿下來之後需要做什麼,需要在程序中完成,將在之後的文章中陸續更新。

下一課已經更新

小結

分析網頁三部曲:
1、找準自己需要獲取的網頁內容並檢查獲取方式(GET、POST)
2、查看源代碼,理解其網頁框架
3、通過插件更快地確定所需內容的Xpath路徑。


如果覺得博主寫的還不錯的,歡迎點贊、評論、加關注,大家的訪問就是博主更新文章不竭的源動力!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章