爬蟲-根據公司名抓取相關員工的linkedin數據

前言:

幾個月前,應朋友要求,寫了一個linkedin爬蟲,難度不大,但功能還算好玩,所以就整理了一下放出來了。代碼見Github:LinkedinSpider
爬蟲功能:輸入一個公司名稱,抓取相關員工的linkedin數據,字段見下方截圖。

linkedin



正文:

先來說一下linkedin的限制:

  1. 不登錄的狀態,不能進行搜索,但是可以查看某個用戶的linkedin信息(不夠全)。
  2. linkedin可以搜用戶(最多顯示100頁),也可以搜公司,但不能查看公司下面的員工信息(顯示的是“領英會員”,沒有權限查看詳細內容,要求先建立聯繫,如下圖,可能開通linkedin高級賬號可以查看,未知)。
    這裏寫圖片描述

那麼如果要抓取某個公司員工的linkedin信息,該怎麼做?
方法一、銀子多,開通高級賬號也許可以查看。
方法二、去搜linkedin用戶,儘量抓取全量的linkedin用戶,從中篩選出某公司的員工。(難度在於如何搜用戶,並且因爲頁數限制,幾乎無法抓取全量)。
方法三、藉助第三方平臺。暫時未發現哪些網站有用到linkedin的數據,但是靈機一動想到了百度收錄!我們用百度搜索,搜某個公司名,域名要求linkedin.com(例如抓取對象爲百度,可以在百度搜索中搜 “百度 site:linkedin.com”),從中篩選出linkedin用戶ID,有了用戶ID我們就可以直接去linkedin抓員工信息了。

我們現在用的就是方法三。說一下爬蟲流程:
先登錄linkedin,帶着linkedin的Cookie進行百度搜索,從中篩選出linkedin用戶的(跳轉到linkedin的)跳轉鏈接,然後抓取、解析。
注意:爲了抓取到最新的數據,一般不直接抓取百度收錄到的內容,只是通過百度收錄抓取到用戶ID;另外,要待着linkedin的Cookie去打開搜索出來的鏈接,不然會跳轉到linkedin登錄頁面,或者抓取到的信息不全。



結語:

代碼放在Github,鏈接上文有提。此文主要作註釋說明。
這只是一個小爬蟲,我想要分享的,不僅僅是linkedin的登錄、linkedin數據的抓取和解析,更重要的,是通過百度收錄抓取目標數據這個方法。
對於做爬蟲,或者是想學爬蟲的同學來說,路子一定要寬,只要能夠保證數據準確、完整,應該從各個途徑去嗅探、抓取數據,抓取難度越小、速度越快,就越好!



轉載請註明出處,謝謝!(原文鏈接:http://blog.csdn.net/bone_ace/article/details/71055153

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章