原创 Hive 優化策略

 正文 一、Hadoop 框架計算特性 1、數據量大不是問題,數據傾斜是個問題 2、jobs 數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關聯多次 彙總,產生十幾個 jobs,耗時很長。原因是 map redu

原创 Flink小白大坑

Caused by: java.lang.Exception: java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.assign

原创 什麼是OLTP?

OLTP (Online Transactional Processing,聯機事務處理) 是專注於面向事務的任務的一類數據處理,通常涉及在數據庫中插入,更新或刪除少量數據,主要是處理大量用戶下的大量事務。 OLTP事務實例:

原创 一文搞定數據倉庫之拉鍊表,流水錶,全量表,增量表

全量表:每天的所有的最新狀態的數據, 增量表:每天的新增數據,增量數據是上次導出之後的新數據。 拉鍊表:維護歷史狀態,以及最新狀態數據的一種表,拉鍊表根據拉鍊粒度的不同,實際上相當於快照,只不過做了優化,去除了一部分不

原创 BatchTableEnvironment引入的Maven依賴

不要引入這個maven依賴(scala) org.apache.flink flink-table-api-scala_2.12 ${flink.version} 這個依賴裏有對應的方法(scala) org.apache.

原创 mac使用rz sz報錯 waiting to receive.**B0100000023be50最新解決方案

mac使用rz sz報錯 waiting to receive.**B0100000023be50最新解決方案 執行rz或者sz時首先會提示-bash: rz: command not found 這裏需要安裝一下rz或者sz 第

原创 Maxwell的數據傾斜問題(kafka中partition分配不均)

在我的這篇博客中記錄了maxwell的使用 https://editor.csdn.net/md/?articleId=103722587,先對大家說聲抱歉,因爲我感覺誤導了很多初學者,包括我自己也被誤導,那就是Maxwell將數

原创 mysql+maxwell+kafka+flink+kafka=>落庫(mysql+hbase等),監控mysql某個數據庫的動態變化(insert,delete,update操作)

1.maxwell安裝配置 服務器上執行 wget https://github.com/zendesk/maxwell/releases/download/v1.10.7/maxwell-1.10.7.tar.gz 2.解壓

原创 equals()與equalsIgnoreCase()對比

“==”: ①基本類型比較的是值; ②引用類型比較的是地址; ③不同類型不能用它比較,無法通過編譯。 equals(Object obj): ①用於應用類型的比較; ②String重寫Object的equals方法,先用“==”判