數據運營系統(三)——V1架構設計文檔

前言

如大家好,我是東北大學大數據班的一名學生,我們在 5 月 25 日開始了爲期 2 個月的實訓,我們小組由三個同學組成,大家都想通過這個項目來提高自己的能力,可以在秋招的時候找一份好工作,所以這個項目一定會認真對待。我們每天都會把當天完成的工作分享出來,希望大家能夠提出寶貴的意見。

轉載自:愛做夢的魚

一、背景

現在隨着互聯網的發展,好多公司的主營業務在線上(app/網站)(外賣公司、各類 app,比如:下廚房;頭條;安居客;內涵段子;鬥魚;每日優鮮>、頁遊、唯品會、拼多多、噹噹、蘇寧 易購、國美在線、網易嚴選、攜程、中華會計網校、多易教育、小象學院、慕課網、尚德教育、有錢花、上哪借 ……)
這類公司,都需要針對用戶的線上訪問行爲、消費行爲、業務操作行爲進行統計分析,數據挖掘!以支撐公司的業務運營、精準畫像營銷、個性化推薦等,來提高業務轉化率,改善公司運營效果! 這些需求,都需要通過構建一個綜合數據處理系統來支撐!

二、名詞解釋

ODS層:存放原始數據,它的作用就是備份。在我們這個第一版的系統裏就是直接存放日誌數據。

DWD層:對 ODS 層的數據進行數據清洗,同時對清洗後的數據生成結構與粒度相同的明細表。粒度舉例:如果 ODS 層每條數據代表一小時的數據,那麼 DWD 的每條數據就是一小時數據,如果 ODS 是一天的數據,DWD 就是一天的數據。 結構不太理解

DWS層:以 DWD 爲基礎,進行輕度聚合的表。舉例:如果 DWD 的每條數據代表一小時的數據,那麼 DWS 就可以是按照天來聚合的數據。

DWT層:DWS 爲基礎,按照主題進行彙總。舉例:把上面提到的按天聚合後的數據,再按照主題統計半年以來的數據。

ADS層:以 DWS 或 DWT 爲基礎,爲各種統計報表提供數據。統計報表就是要進行展示的表。

任務調度:任務管理就是指在具有依賴關係的多個任務裏,先做哪個任務,後做哪個任務,當某個任務失敗時怎麼實現自動重啓。

元數據管理:元數據管理就是對 hive 表中的數據進行血緣分析。作用是在表多的時候,如果某一個表出問題了,可以通過可視化的形式快速找出該表時怎麼來的,從而解決問題,如果在表少的情況下則用處不太大。

三、設計目標

3.1 實現功能

實現的功能在需求文檔裏已經進行了詳細說明,這裏不再贅述。

3.2 性能指標

Ⅰ.數據精確度

嚴格驗證每個數據的錄入保證數據錄入的無誤,顯示用戶數據要和原始數據一樣無差別。

Ⅱ.時間特性

在網絡通常的情況下用戶點擊網頁後5s內必須出結果

Ⅲ.適應性

網頁支持主流瀏覽器的正常加載顯示,控制可視化圖表和報表顯示正常。

四、系統環境

4.1 相關軟件和硬件

  • 軟件:Hadoop、Spark、Flume、Kafka、Sqoop、Azkaban、Atlas、Echarts
  • 硬件:每臺節點內存 8G、CPU 6 核、磁盤 300G,集羣中共三臺節點

4.2 數據規模預估

​ 待定

五、系統設計

5.1 基礎介紹

  • 數據採集傳輸:Flume、Kafka、Sqoop
  • 數據存儲:Mysql、HDFS
  • 數據計算:Spark
  • 數據可視化:Echarts
  • 任務調度:Azkaban
  • 元數據管理:Atlas

5.2 系統架構圖

5.2 和 5.3感覺是一個東西

5.3 系統流程圖

在這裏插入圖片描述

六、風險評估

6.1 已知的或可預知的風險

6.2 與其他系統可能的影響

七、附件及參考資料

使用的模板:https://blog.csdn.net/cbuy888/article/details/87934916?tdsourcetag=s_pctim_aiomsg

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章