原创 個人技術方向發展

截止到2023年的技術方向發展,打勾的是實際用過的, 比較熟悉的. 目前缺失的是機器學習、雲原生、數據湖這塊的落地經驗, 希望在2023年學習並有機會在實際場景中進行落地和實踐. 2023年下半年也希望在業務層面有更深入的探索. 有機會的

原创 Rust學習入門

介紹 特性: 高性能,內存利用率高,沒有運行時和垃圾回收 可靠 , 豐富的類型系統和所有權模型保證內存和線程安全,編譯器可以消除各種錯誤 生產力, 包管理器、構建工具一流, 多編輯器支持自動補齊和格式化代碼 應用場景: 命令行工具,無需解釋

原创 Hive一次更新多個分區數據方案

場景 訂單數據之類的業務表,因爲有狀態要更新,比如訂單狀態,物流狀態之類的,需要同步很久之前的數據到Hive. 如何同步時在Hive中進行操作一次更新多個分區內的數據? Hive 操作 設置Hive動態分區 SET hive.exec.

原创 Flink如何處理update數據

問題 Flink實時統計GMV,如果訂單金額下午變了該怎麼處理 具體描述 實時統計每天的GMV,但是訂單金額是會修改的。 訂單存儲在mysql,通過binlog解析工具實時同步到kafka.然後從kafka實時統計當日訂單總額。 假設訂單

原创 Flink Catalog

概念 Catalog 提供了元數據信息,例如數據庫、表、分區、視圖以及數據庫或其他外部系統中存儲的函數和信息。 數據處理最關鍵的方面之一是管理元數據。 元數據可以是臨時的,例如臨時表、或者通過 TableEnvironment 註冊的 UD

原创 Flink Checkpoint & Savepoint

Flink checkpoint Checkpoint是Flink實現容錯機制最核心的功能,能夠根據配置週期性地基於Stream中各個Operator的狀態來生成Snapshot,從而將這些狀態數據定期持久化存儲下來,從而將這些狀態數據定期

原创 Flink 狀態編程

概念 在Flink架構體系中,有狀態計算可以說是Flink非常重要的特性之一 Flink優勢: 支持高吞吐、低延遲、高性能 支持事件時間Event_time概念 支持有狀態計算 有狀態計算是指: 在程序計算過程中,在Flink程序內部存

原创 Flink Time

基礎概念 支持兩種時間概念: Processing Time 時間遞增 Ingestion Time : 攝入時間,數據進入Flink框架的時間,在Source Operator中設置,每個事件拿到當前時間作爲時間戳,後續的時間窗口基於該

原创 ClickHouse-查詢優化

單表查詢【使用的頻率高】 1.prewhere代表where Prewhere 和 where 語句的作用相同,用來過濾數據。不同之處在於 prewhere 只支持*MergeTree 族系列引擎的表,首先會讀取指定的列數據,來判斷數據過濾

原创 Clickhouse SQL語法

Insert 基本與標準 SQL(MySQL)基本一致 (1)標準 insert into [table_name] values(…),(….) (2)從表到表的插入 insert into [table_name] select a,

原创 Clickhouse副本及分片

副本 副本的目的主要是保障數據的高可用性,即使一臺 ClickHouse 節點宕機,那麼也可以從其他服務器獲得相同的數據 配置副本 1. zookeeper集羣準備 2. Clickhouse準備兩個節點 Node1, Node2 在 No

原创 Clickhouse入門及實踐

ClickHouse安裝 採用doker安裝測試: 拉取服務端 docker pull yandex/clickhouse-server 拉取客戶端 docker pull yandex/clickhouse-client 啓動ck-s

原创 分佈式相關理論及算法

文章 輕鬆理解CAP理論 : https://zhuanlan.zhihu.com/p/50990721 分佈式一致性算法,你確定不瞭解一下: https://juejin.cn/post/6854573216174702605

原创 Flink CDC 與Hudi整合

介紹 之前寫過Flink CDC sink 到 Iceberg中,本篇主要實踐如何CDC到hudi中. 什麼是hudi? Hudi is a rich platform to build streaming data lakes with

原创 Flink CDC同步MySQL分庫分表數據到Iceberg數據湖實踐

介紹 Flink CDC: 捕獲數據庫完整的變更日誌記錄增、刪、改等所有數據. Flink在1.11版本開始引入了Flink CDC功能,並且同時支持Table & SQL兩種形式。Flink SQL CDC是以SQL的形式編寫實時任務,