Lambda 架構,隨便想想想的

數據來源:文件(包含各類文件:各類中間件日誌,csv文件,mysql binlog,視頻設備流,應用操作日誌,第三方平臺數據)

採集中間件:filebeat採集文件,kafka收集應用數據或做數據緩存中間件,pulsar數據,flume採集tcp等數據,datax收集其它數據源數據(mysqlbinlog),

ODS層:存儲層到hdfs,hbase,es和Tbase(pg),hbase作爲列式存儲,適合模型訓練,es快速模糊查詢

DWD層:hive作爲離線etl引擎,impala做爲輔助,phoinex可以在構建在HBase上的一個SQL層,能讓我們用標準的JDBC APIs而不是HBase客戶端APIs來創建表,spark作爲hive的查詢引擎

DWS層:flink做爲實時分析工具,spark 做爲模型訓練(mlib),tidb同時支持在線事務處理與在線分析處理 ,加速分析,es做爲統計,ClickHouse不僅僅按列存儲,還可以按向量進行處理,採用了並行處理機制,可以用監控系統、用戶行爲分析、BI報表,特徵分析等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章