多來源數據採集、處理的數據流程

數據平臺數據處理流程圖

  1. 數據準備:
    主要分爲幾個來源:FTP數據來源,合作方推送的數據,從攜程對外開放的API接口獲取數據,酒店管理系統日誌數據以及在線旅行社網站的數據源。
  2. 數據接入:
    針對數據多來源的特性開發針對特定場景的數據接入方式。
    a.FTP來源的數據:採用shel腳本開發,包括檢查數據是否準備就緒、開始下載、解密解包、lzop壓縮、put方式上傳文件到HDFS
    b.合作方推送的數據:搭建簡單的web服務,接受攜程推送的請求,利用Nginx完成請求負載,並利用Nginx記錄請求中的數據,寫入文件。後續通過日誌收集系統獲取數據(其實可以從合作方直接將數據推送Kafka的)
    c.合作方API接口數據:開發程序形成生產者消費者模式,生產者將任務寫入隊列,消費者從隊列中獲取任務並利用線程池併發從合作方API接口獲取數據
    d.PMS日誌數據:主要由開源Flume組件完成
    e.網站數據:利用爬蟲抓取網站數據

3.數據存儲:
分爲實時和離線數據存儲兩種方式,分別通過Kafka和HDFS進行存儲
4.數據處理:
在數據處理環節,主要利用MapReduce和Spark進行數據處理任務的開發。
5、數據查詢:
將Hive定義在數據查詢這一流程,用戶在使用數據平臺過程中,通過Hive對數據進行查詢。

多來源數據採集、處理的數據流程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章