原创 ES複雜類型數據同步到HIVE數倉

數倉中重要的一個數據同步環節是將ES的數據同步到hive數倉中進行分析,對於普通的平級沒有嵌套的數據來說很容易同步,但是對於嵌套類型需要考慮的點就多了,以下是一些乾貨,在此記錄一下。 1、環境說明 ES Version: 7.2

原创 Hive抽數到ElasticSearch實現

一、背景 有關ES的詳細介紹參考:https://www.cnblogs.com/cjsblog/p/9439331.html 公司有些比如使用算法訓練的模型數據等需要快速的檢索性能,最終選擇使用ES來存儲,然後使用別名來區

原创 Datax MySQL2Hive抽數ClassCastException: java.lang.String cannot be cast to java.lang.Integer問題解決

1、現象 com.alibaba.datax.common.exception.DataXException: Code:[HdfsWriter-04], Description:[您配置的文件在寫入時出現IO異常.]. - java.l

原创 有關數倉增量和全量同步的一些思考

背景 相信很多公司都是基於Hive做的數倉,從而對外提供數據服務。這裏只討論離線數倉,做數倉必然離不開對大量數據的ETL處理工作。目前的ETL種類繁多,可選擇的工具也有很多,比如使用Sqoop, DataX做離線的T+1數據同步,

原创 Sqoop抽數報MySQL錯誤CommunicationsException

報錯信息如下: The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packet

原创 Java 12個語法糖

本文從 Java 編譯原理角度,深入字節碼及 class 文件,抽絲剝繭,瞭解 Java 中的語法糖原理及用法,幫助大家在學會如何使用 Java。 語法糖 語法糖(Syntactic Sugar),也稱糖衣語法,是由英國計算機學家 Pet

原创 使用hive的外部表工具同步數據至HBase示例

需求:從hive的某張表同步到指定hbase表中 解決:使用hive外部表工具映射到hbase進行數據同步 使用示例 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

原创 Hive靜態分區數據拷貝

Hive版本:2.1.1 set hive.support.quoted.identifiers=none; insert overwrite table ods.ods_call_logs_xx partition(pt='2019-

原创 MySQL Explain有什麼用 ?

MySQL Explain有什麼用 ? 當Explain 與 SQL語句一起使用時,MySQL 會顯示來自優化器關於SQL執行的信息。也就是說,MySQL解釋了它將如何處理該語句, 包括如何連接表以及什麼順序連接表等。 表的加載

原创 Hive性能調優與實戰節選

此文來自於《Hive性能調優與實戰》,寫的真不錯,如有需要自行購買 京東 在這裏僅用以筆記備忘,侵刪! 一、什麼是mapreduce的shuffle ? shuffle的過程應該是從mapper的map方式輸出到Reduce方法輸

原创 Spark on yarn內存分配筆記

一、知識回顧 spark driver和executor的on-heap(堆內)內存是如何配置的? spark driver和excutor的off-heap(堆外)內存是如何配置的? yarn的最小調度單元是什麼? Spark

原创 Git分支管理備忘錄

Gitlab分支命名規範 publish_v1.0.0_ddl- 發佈分支 每次迭代開始建立publish發佈分支,分支格式: publish+本地版本編號+本次迭代DDL日期 如: publish_v1.0.0_0509

原创 Hive必知必會的優化細節和原理釋義

一、 常用參數優化 參數名 參數釋義和用法 列裁剪和分區裁剪 列裁剪就是在查詢時只讀取需要的列,分區裁剪就是隻讀取需要的分區。解析階段對應的則是ColumnPruner邏輯優化器 hive.optimize.cp

原创 使用Flink計算實時熱門商品實例

一、項目說明 使用Flink計算實時熱門商品(來源於ververica官網示例) 通過該示例我們可以瞭解到如下知識點: 1、如何基於 EventTime 處理,如何指定 Watermark ? 2、如何使用 Flink 靈活的 W

原创 Mysql建表規範備忘錄

一、基礎規範 (1) 必須使用INNODB存儲引擎 SQL:   ENGINE=InnoDB (2) 創建數據庫,字符集統一爲utf8mb4,比較規則爲utf8mb4_general_ci       創建數據表,字符集統一爲utf8mb