數倉中重要的一個數據同步環節是將ES的數據同步到hive數倉中進行分析,對於普通的平級沒有嵌套的數據來說很容易同步,但是對於嵌套類型需要考慮的點就多了,以下是一些乾貨,在此記錄一下。
1、環境說明
-
ES Version: 7.2.1
-
Hadoop Version: 3.0.0
-
elasticsearch-hadoop-7.2.1.jar
-
ES的數據示例
"time" : "2020-06-28T00:24:55+0800",
"documentId" : "d458d964-1b92-45da-8aff-0ae57331310d",
"lessonUid" : "c4a6d717bb464e00a0d3fdf79fd6dfc7",
"serviceType"