多來源數據採集、處理的數據流程

原創

2018-09-10 03:54

數據平臺數據處理流程圖

數據準備：
主要分爲幾個來源：FTP數據來源，合作方推送的數據，從攜程對外開放的API接口獲取數據，酒店管理系統日誌數據以及在線旅行社網站的數據源。
數據接入：
針對數據多來源的特性開發針對特定場景的數據接入方式。
a.FTP來源的數據：採用shel腳本開發，包括檢查數據是否準備就緒、開始下載、解密解包、lzop壓縮、put方式上傳文件到HDFS
b.合作方推送的數據：搭建簡單的web服務，接受攜程推送的請求，利用Nginx完成請求負載，並利用Nginx記錄請求中的數據，寫入文件。後續通過日誌收集系統獲取數據（其實可以從合作方直接將數據推送Kafka的）
c.合作方API接口數據：開發程序形成生產者消費者模式，生產者將任務寫入隊列，消費者從隊列中獲取任務並利用線程池併發從合作方API接口獲取數據
d.PMS日誌數據：主要由開源Flume組件完成
e.網站數據：利用爬蟲抓取網站數據

3.數據存儲：
分爲實時和離線數據存儲兩種方式，分別通過Kafka和HDFS進行存儲
4.數據處理：
在數據處理環節，主要利用MapReduce和Spark進行數據處理任務的開發。
5、數據查詢：
將Hive定義在數據查詢這一流程，用戶在使用數據平臺過程中，通過Hive對數據進行查詢。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章