使用 hadoop組件作爲 ETL 或 ELT 工具

原創

富兰克林008

2020-06-20 02:17

看了IBM上的一個帖子：

http://www.ibm.com/developerworks/cn/data/library/bd-hivetool/
使用 Hive 作爲 ETL 或 ELT 工具

覺得，數據量很大的情況下，確實可以使用hadoop的組件來做ETL，hdfs存儲全部的原始數據，需要的時候通過Hive，sparkSQL或者Impala查詢。
前提就是先建議Hive外部表的metastore，然後供sparkSQL和Impala訪問。

hive metastore的架構關係（metastore三種部署方式，CDH5裏面按照Remote模式）

大致明白過程了，開工：

1、Hive的安裝

2、測試Hive建外部表（txt,csv,bz2,gz各種格式）

3、Hue中Impala訪問Hive表

有問題，剛纔Hive建的表哪裏去了？

http://www.cloudera.com/content/www/en-us/documentation/archive/impala/2-x/2-1-x/topics/impala_langref_sql.html

找到：

INVALIDATE METADATA [[db_name.]table_name]

刷新一下元數據，終於可以看到表格了。所以建議Impala中直接建表，直接查詢，不要一會Hive中操作，一會Impala，至於多用戶，那就只能用的時候刷新了。

後面就是可以不斷的上傳壓縮文件到hdfs，給足夠的可讀權限，通過Impala對這些文件進行訪問，分析，處理了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Impala與Hive的語法區別(持續更新中...)

不支持Date類型 Impala中是不支持Date數據類型的 union時字段類型問題 Impala中兩表union時，對應字段的數據類型必須一致(比如，int類型不能和空字符串""union)。而Hive中是允許的。中文佔用

2020-07-07 09:01:23

dataX從mysql導出數據到hbase

業務數據庫中存了大量的歷史數據，導致在根據業務條件查詢數據的時候效率太低。因此考慮將原始的業務數據通過SQL先做一遍處理後放到中間表，然後再把中間表的數據同步到hbase，以後直接從hbase查詢數據。當然這個還涉及到增量數據如何同步，如

2020-07-08 10:43:37

datax同步mysql數據到hive

datax hdfswriter文檔 https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 需要注意的是，hdfswriter寫入時的字段分隔符

2020-07-08 10:43:36

datax從mysql同步數據到elasticsearch（使用es的動態模板）

elasticsearch中設置動態模板 PUT _template/hkey_transferbill { "index_patterns": "hkey_transferbill", "settings": {

2020-07-08 10:43:25

【Kettle Spoon】課程要點簡記

文章目錄一、入門1.Kettle簡介2.Kettle下載3.Kettle部署4.界面簡介5.快速體驗6.執行結果7.核心概念二、輸入控件1.csv文件輸入2.文本文件輸入3.Excel輸入4.多文件合併5.Get data fro

2020-07-08 10:40:46

dataocean平臺用繼承spark的python腳本來實現抓取es數據到hive

在大數據生態裏，ES作爲一個極致搜索平臺，可依據json格式快速在線查詢過濾以及修改數據，由於json數據是半結構化數據，所以從hive數倉數據交換到es很簡單，但是從es交換到hive就需要對應字段切分，現在基本上使用的都是scala，

江楼月美人

2020-07-08 00:54:49

ETL 之kettle 8下載

最近了解到ETL利器kettle，但是國內下載都非常慢，國內有個鏡像網站但是隻提供kettle 7及以下版本，這裏提供kettle 8 版本地址鏈接：https://pan.baidu.com/s/1iiMq4tI3vzPTkjuApl

2020-07-06 17:59:34

Pyspark ValueError: Cannot run multiple SparkContexts at once 解決之道

pyspark執行可能就遇到問題 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master

2020-07-06 17:59:34

informatica增量抽取

目錄1.需求2.操作3.測試 1.需求將ods_cust_info表抽取到edw層，當表中有新增記錄，只抽取新增記錄，而不全表重新執行抽取。 2.操作 1.導入源表：從oltp用戶下導入ods_cust_info表。 2.定義

2020-07-05 01:12:38

informatica快速上手實例操作

目錄1.目標2.創建EDW用戶3.info的客戶端介紹4.打開R客戶端，創建文件夾5.打開D客戶端，定義源表、目標表和創建映射6.打開W客戶端，創建任務和工作流7.M客戶端，工作流調度監控 1.目標將scott用戶下的emp表

2020-07-05 01:12:28

informatica組件操作

目錄1.需求一1.2 使用Lookup組件1.3 使用sort排序組件2.需求二2.1 filter過濾器組件3.需求三3.1 存儲過程轉換組件3.2 序列生成器組件seq3.3 彙總器轉換組件aggregator4.需求四4.1

2020-07-05 01:12:28

informatica同構與異構

目錄1.同構需求1.1 將emp表和dept表進行內連接1.2 將emp表和dept表進行右連接2.異構需求2.1 使用oracle的emp表和mysql的dept表進行連接3.同構與異構總結 1.同構需求 1.1 將emp表和

2020-07-05 01:12:28

kettle：一、單表同步篇

一、前言 sqlserver錶轉oracle表，表結構相同。記錄下我的工作經歷，就像日記一樣；我以後還可以查閱。 kettle版本：pdi-ce-5.4.0.1-130 其實，我還安裝了kettle 6.1；大部分轉換ktr文件都是由

2020-07-04 21:15:14

ETL——SSIS導入數據流程

某一類表格的導入的控制流大體如下： 1、執行SQL任務，找到本地文件夾中未被處理過的最新的表 2、 Foreach循環容器：重複包中的任務 3、執行SQL任務：刪除數據庫中的原表

2020-07-04 05:09:47

Excel批量導入數據庫——SSIS

現在想將文件夾中的多個Excel文件批量導入數據庫中，且放在同一張表中工具：SQL Server數據庫，Microsoft SQL Management Studio(SSMS)，Microsoft Visual Studio(SSD

2020-07-04 05:09:47

24小時熱門文章

最新文章

最新評論文章