使用Spark分析拉勾網招聘信息(一):準備工作

本系列專屬github地址:https://github.com/ios122/spark_lagou

前言

我覺得如果動筆,就應該努力地把要說的東西表達清楚.今後一段時間,嘗試下系列博客文章.簡單說,如果心裏想表達想分享的,就適當規劃組織下,使其相對自成體系,以便於感興趣但可能剛好某個領域還不是很熟的人,也能很好地入手.系列文章,我會努力避免過於主觀化的描述,同時吸取以往的經驗,儘量給每個系列的文章都設置一個單獨的 github 項目,供查閱參考.

Spark 系列文章規劃

Spark系列,因爲本人並非供職於大型數據公司,也未曾在較大數據集上實踐過,所以內容可能僅供初級入門者參考.目前,我處理過的較大的數據集,也僅在百萬條左右,但是也不得不驚歎 Spark 做爲數據分析工具的便利性,100w條數據,在3臺BMR服務器結點上,複雜查詢一般在十秒以內.從數據分析的工具角度,我覺得 Spark 還是有必要了解的,大多數時候,基於數據的多個維度分析出的結論,可能比某些抽象的統計數據,能有說服力.

數據源: 拉勾網 iOS 職位最近一個月的公開招聘信息

以拉勾網 iOS 職位最近一個月的公開招聘信息作爲樣本.這是一個樣本,到時我會具體說一下數據獲取的方法和思路,還會奉上可用的腳本.

數據分析工具:Spark.

Spark是主要分析工具.我前一段時間,看了那本<

數據分析平臺: 百度BMR

我會直接基於百度BMR來分析數據.至今,我沒有試過自己搭建spark開發環境,也暫無打算研究.因爲我覺得,大數據的分析,硬件還是挺貴的,好在現在有云平臺,即開即用,用完釋放掉即可.還有一個原因是,單機版的Spark和分佈式的Spark,某些函數的行爲還是有差異的.我看阿里雲,也有類似的大數據分析平臺,應該也是可以的.

準備事宜

實名認證的百度開發者賬號,註冊請到 https://login.bce.baidu.com 因爲必須是實名認證的百度開發者賬號,纔可以創建 BMR 實例,沒有賬號,可能會影響到你觀察文章的體驗.因爲這個實名認證要審覈的,最好提前弄.

文章更新具體規劃

使用Spark分析拉勾網招聘信息(一):準備工作

交代基本背景,動機與必要準別事宜等,爲進一步文章鋪墊.

使用Spark分析拉勾網招聘信息(二): 獲取數據

使用腳本自動獲取數據,會涉及數據源的分析,腳本編寫思路,以及一個最終可用的腳本和實際採集的完整數據附件.

使用Spark分析拉勾網招聘信息(三): BMR 入門

主要講解百度大數據平臺BMR的基礎操作與常用工具的使用.當然電腦性能較爲強悍的童鞋,可以自己安裝研究下Hadoop,Spark和Zeepline等工具.用BMR,比較省錢,按分鐘計費,一小時 2塊左右,我通常只是有感興趣的數據題材時纔開啓.順便插一句,以數據的視角,自由組合維度來觀察某些自己關心的數據,真的看出來許多刷新自己認知的真實.不過,考慮到工具的可擴展性,我還是建議掌握下 BMR或者阿里的大數據平臺的基礎使用.

使用Spark分析拉勾網招聘信息(四): 幾個常用的腳本與圖片分析結果

這裏,會結合數據結構,展示下數據分析與提取的基本思路,然後會選幾個角度分析下數據.方法是根本,簡單瞭解下,再多看看 spark 和 scala 文檔,我相信大家是可以自由使用Spark來分析自己感興趣的數據的.


版權聲明: iOS122 顏風 署名系列文章,每日 7:20 首發於微信公衆號 iOS122gg,其他平臺次日10點更新.除各大博客平臺的iOS122官方專欄外,其他任何用途的轉載與使用,請務必註明出處!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章