2、把集群中的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml文件拷贝（替换）到kettle的pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514目录下

9、Test9 HDFS –excel

11、Test11 hive- –excel

13、Test13 SQL脚本（Hive）

五、Kettle转换组件

14、Test14 值映射json-excel

15、Test15 增加序列json-excel

16、Test16选择字段json-excel

八、Kettle Javascript脚本组件

21、Test21 JS脚本（使用Kettle生成日期维度数据）

3、Javascript组件，生成基本时间维度数据

23、Test23-表输入参数传递 - 转换命名参数

谢谢你长得这么好看还给我点赞

一、Kettle安装、配置

环境要求：

安装、配置好JDK

1、下载Kettle

2、解压Kettle

3、双击spoon.bat 启动spoon

4、操作和mysql相关的的需要在lib目录下导入mysql驱动包

二、Kettle的使用（输入输出组件）

Kettle数据流结构图

1、Test1 csv-excel

在Kettle中新建转换
拖拽一个CSV输入组件、一个Excel输出组件、并按住Shift拖动鼠标连接两个组件
配置CSV输入组件、Excel输出组件

选择要进行导入的CSV数据源

点击「获取字段」，读取CSV中的列

点击「预览」，浏览CSV中的数据

指定输出Excel文件的位置

点击三角形箭头执行

2、Test2 json-excel

输入

输出

点击启动

3、Test3 mysql -excelx

输入

、点击测试会出现以下弹框

点击浏览

输出

执行

结果

4、Test4 生成数据-excel

输入

输出

执行

结果

5、mysql –文本

输入

输出

执行

结果

6、Test6 json –mysql

输入

输出

目标表可以随便填写一个数据库中不存在的表名，之后再SQL那里可以创建

获取字段没有反应的话，先点确定，之后看一下输入输出步骤是否处于连接状态

在未连接状态是获取不了字段的

在连接状态下可以获取字段

执行

结果

7、json –插入/更新(mysql)

输入

输出

执行

结果

插入（和上边不同的只有以下内容）

！！好像是第一次执行只会插入表结构，第二次执行才会插入json中的数据！！

8、Test8 mysql 删除数据

输入

输出

执行

结果

三、Kettle整合Hadoop

修改配置：

1、打开plugins\pentaho-big-data-plugin\plugin.properties 文件

修改 active.hadoop.configuration 为 active.hadoop.configuration=cdh514

！！这里的cdh514要根据你自己的hadoop版本来写！！

不修改这里的配置可能出现的错误

The Active Shim has not been set

此时会弹出 hadoop 版本的基本信息

2、把集群中的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml文件拷贝（替换）到kettle的pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514目录下

不修改以上配置可能出现以下错误

We couldn't run test User Home Directory Access.

We couldn't run test Root Directory Access.

kettle Unable to load the{0} Shim.

9、Test9 HDFS –excel

输入

输出

10、Test10 json -HDFS

输入

输出

四、Kettle整合Hive

1、从虚拟机下载Hadoop的jar包

sz /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/common/hadoop-common-2.6.0-
cdh5.14.0.jar

2、把jar包放置在\data-integration\lib目录下

3、重启kettle，重新加载生效

11、Test11 hive- –excel

hive数据库是通过jdbc来进行连接，可以通过表输入控件来获取数据

准备大数据Hive环境，创建数据表。

准备数据，将数据加载到hive

hive --service hiveserver2 &
hive --service metastore &

1、连接hive

2、创建并切换数据库

create database test;
use test;

3、创建表

create table a(
a int,
b int
)
row format delimited fields terminated by ',' stored as TEXTFILE;
show tables;

4、创建数据文件

vim a.txt

1,11
2,22
3,33

5、从文件加载数据到表

load data local inpath '/root/a.txt' into table a;

6、查询表

select * from a;

输入

输出

12、Test12 excel-hive

把数据保存到hive数据库

hive数据库是通过jdbc来进行连接，可以通过表输出控件来保存数据。

输入

输出

查看

执行

结构

13、Test13 SQL脚本（Hive）

Kettle中可以执行Hive的HiveSQL语句，使用作业的SQL脚本。

五、Kettle转换组件

转换是ETL的T，T就是 Transform清洗、转换 ETL三个部分中，T花费时间最长,是“一般情况下这部分工作量是整个ETL的2/3

14、Test14 值映射json-excel

值映射就是把字段的一个值映射成其他的值

结果

15、Test15 增加序列json-excel

增加序列就是给数据流增加一个序列字段

16、Test16选择字段json-excel

字段选择是从数据流中选择字段、改变名称、修改数据类型

六、Kettle流程控件

流程主要用来控制数据流程和数据流向

17、Test17 switch

switch/case组件让数据流从一路到多路。

18、过滤

过滤记录让数据流从一路到两路。

七、Kettele连接控件

19、Test19 连接控件-笛卡尔积

配置记录关联（笛卡尔积组件）【不要任何设置】

20、Test20 记录集连接

记录集连接类似数据库的左连接、右连接、内连接、外连接。

在进行记录集连接之前，应该要对记录集进行排序。

八、Kettle Javascript脚本组件

Kettle中可以通过脚本完成一些复杂的操作
javascript脚本就是使用javascript语言通过代码编程来完成对数据流的操作
JS中有很多内置函数，可以在编写JS代码时查看
存在两种不同的模式不兼容模式和兼容模式

不兼容模式：是默认的，也是推荐的
兼容模式：兼容老版本的kettle

对比不兼容模式与兼容模式的差别：

操作	不兼容模式	兼容模式
获取字段	myVar = fifieldName	myVar = 字段名称.getString() myVar = 字段名称.getNumber()
给字段赋值	字段名 = myVar	字段名.setValue(myVar)
在脚本中使用java类	var myVar = new java.lang.String("pentahochina.com")	var myVar = new Packages.java.lang.String("pentahochina.com")

21、Test21 JS脚本（使用Kettle生成日期维度数据）

需求：

为了后续分析销售订单金额、订单笔数的周环比、周同比、月环比、月同比，需要提前使用Kettle生成时间维度

工具（环比是相邻比较，同比是历史同期比较）

按照以下字段生成 2019年一年的日期维度数据

名	类型	示例值	中文名
date_key	string	20000101	代理键
date_value	string	2000-01-01	年-月-日
day_in_year	string	1	当年的第几天
day_in_month	string	1	当月的第几天
is_first_day_in_month	string	y	是否月的第一天
is_last_day_in_month	string	n	是否月的最后一天
weekday	string	星期一	星期
week_in_month	string	1	月的第几个星期
is_first_day_in_week	string	y、n	是否周一
is_dayoff	string	y、n	是否休息日
is_workday	string	y、n	是否工作日
is_holiday	string	y、n	是否国家法定节假日
date_type	string	workday、weekend、holiday 工作日、周末、法定节假日	日期类型工作日：workday 国家法定节假日：holiday 休息日：weekend
month_number	string	1、2、..、12	月份
year	string	2000	年份
quarter_name	string	Q1	季度名称
quarter_number	string	1	季度
year_quarter	string	2000-Q1	年-季度
year_month_number	string	2000-01	年-月份