前程無憂網站
小遠想知道全國各地的爬蟲開發工程師的招聘要求,並進行橫向比較和分析。大型招聘網站(比如前程無憂)上的崗位需求都是成百上千條,顯然,網上的招聘信息太多,自己點開太過繁瑣和複雜,手動完成不現實。
所以,
上爬蟲,
幹!
目標,“前程無憂”的爬蟲崗信息(網址:https://jobs.51job.com/pachongkaifa)
Step1:找準自己需要什麼東西
Step2:進行網頁分析
使用Chrome瀏覽器打開網頁,發現從第一頁到第十三頁的URL(統一資源定位器,就是網絡地址)分別對應着“https://jobs.51job.com/pachongkaifa/p1/”到“https://jobs.51job.com/pachongkaifa/p13/”,由於網頁佈局都是一樣的,所以只需要完成一頁再寫一個循環就可以完成所有信息的爬取。
查看網頁源代碼
右鍵->檢查
或者直接Ctrl+Shift+C,選中要檢查的內容,便可以快速定位到要檢查的內容在源代碼中的位置,個人比較推薦這種方法、
以防萬一,需要看一眼這個網頁獲取服務器上數據的方式是GET還是POST,一般來說,如果不涉及登錄信息或者其他驗證步驟的網頁都是GET方式獲取的,但此處爲了講解得更加詳細,展示一下。(關於GET和POST以及其他HTML的相關知識請自行百度)
由於我們需要的內容組成爲一個一個小的單元(本例中一個崗位就有自己的若干屬性信息,如“崗位名稱”、“所屬公司”、“薪資待遇"等等),所以抽絲剝繭之後,需要整理出一個該網頁所需信息的結構框架
大致如下兩圖所示:
Step3:利用XPath Helper插件寫出所需信息的大致Xpath路徑
關於本插件,博主有在之前的文章中提到,不再贅述
此處博主找到的Xpath路徑爲
//div[@class=“detlist gbox”]/div
具體將本版塊拿下來之後需要做什麼,需要在程序中完成,將在之後的文章中陸續更新。
下一課已經更新
小結
分析網頁三部曲:
1、找準自己需要獲取的網頁內容並檢查獲取方式(GET、POST)
2、查看源代碼,理解其網頁框架
3、通過插件更快地確定所需內容的Xpath路徑。
如果覺得博主寫的還不錯的,歡迎點贊、評論、加關注,大家的訪問就是博主更新文章不竭的源動力!