原创 Flink 狀態編程

概念 在Flink架構體系中,有狀態計算可以說是Flink非常重要的特性之一 Flink優勢: 支持高吞吐、低延遲、高性能 支持事件時間Event_time概念 支持有狀態計算 有狀態計算是指: 在程序計算過程中,在Flink程序內部存

原创 Flink Time

基礎概念 支持兩種時間概念: Processing Time 時間遞增 Ingestion Time : 攝入時間,數據進入Flink框架的時間,在Source Operator中設置,每個事件拿到當前時間作爲時間戳,後續的時間窗口基於該

原创 ClickHouse-查詢優化

單表查詢【使用的頻率高】 1.prewhere代表where Prewhere 和 where 語句的作用相同,用來過濾數據。不同之處在於 prewhere 只支持*MergeTree 族系列引擎的表,首先會讀取指定的列數據,來判斷數據過濾

原创 Clickhouse SQL語法

Insert 基本與標準 SQL(MySQL)基本一致 (1)標準 insert into [table_name] values(…),(….) (2)從表到表的插入 insert into [table_name] select a,

原创 Clickhouse副本及分片

副本 副本的目的主要是保障數據的高可用性,即使一臺 ClickHouse 節點宕機,那麼也可以從其他服務器獲得相同的數據 配置副本 1. zookeeper集羣準備 2. Clickhouse準備兩個節點 Node1, Node2 在 No

原创 Clickhouse入門及實踐

ClickHouse安裝 採用doker安裝測試: 拉取服務端 docker pull yandex/clickhouse-server 拉取客戶端 docker pull yandex/clickhouse-client 啓動ck-s

原创 分佈式相關理論及算法

文章 輕鬆理解CAP理論 : https://zhuanlan.zhihu.com/p/50990721 分佈式一致性算法,你確定不瞭解一下: https://juejin.cn/post/6854573216174702605

原创 Flink CDC 與Hudi整合

介紹 之前寫過Flink CDC sink 到 Iceberg中,本篇主要實踐如何CDC到hudi中. 什麼是hudi? Hudi is a rich platform to build streaming data lakes with

原创 Flink CDC同步MySQL分庫分表數據到Iceberg數據湖實踐

介紹 Flink CDC: 捕獲數據庫完整的變更日誌記錄增、刪、改等所有數據. Flink在1.11版本開始引入了Flink CDC功能,並且同時支持Table & SQL兩種形式。Flink SQL CDC是以SQL的形式編寫實時任務,

原创 大數據各組件重要技術點總結

介紹 針對大數據組件特點歸納如下: 存儲:HDFS,hudi,Hbase, Kafka 計算引擎:Spark,Flink OLAP: Doris 調度: Yarn 下面主要從架構、組件原理、業務場景等角度針對相關組件的技術要點進行總結.

原创 [離線計算-Spark|Hive] HDFS小文件處理

背景 HDFS 小文件過多會對hadoop 擴展性以及穩定性造成影響, 因爲要在namenode 上存儲維護大量元信息. 大量的小文件也會導致很差的查詢分析性能,因爲查詢引擎執行查詢時需要進行太多次文件的打開/讀取/關閉. 小文件解決思路

原创 [離線計算-Spark|Hive] 數據近實時同步數倉方案設計

背景 最近閱讀了大量關於hudi相關文章, 下面結合對Hudi的調研, 設計一套技術方案用於支持 MySQL數據CDC同步至數倉中,避免繁瑣的ETL流程,藉助Hudi的upsert, delete 能力,來縮短數據的交付時間. 組件版本:

原创 [平臺建設] 大數據平臺如何實現任務日誌採集

背景 平臺任務主要分3種: flink實時任務, spark任務,還有java任務,spark、flink 我們是運行在yarn 上, 日常排錯我們通過查看yarn logs來定位, 但是會對日誌存儲設置一定的保留時間, 爲了後續更好排查問

原创 [平臺建設] Spark任務的診斷調優

背景 平臺目前大多數任務都是Spark任務,用戶在提交Spark作業的時候都要進行的一步動作就是配置spark executor 個數、每個executor 的core 個數以及 executor 的內存大小等,這項配置目前基本靠用戶個人經

原创 [平臺建設] 日誌數據同步數倉設計

背景 主要針對用戶流量數據、風控數據、人物畫像等數據進行同步至數倉, 制定數據傳輸格式爲json,將用戶數據解析寫入Hive中,以T+1形式交付給用戶,以便用戶後續統計分析. 架構設計 實現細節 創建工作目錄,用於記錄kafka消