kettle连接Hive操作

kettle连接Hive操作

从Hive中下载数据到excel中

  1. 拉出表输入步骤,然后创建一个新的数据库连接,连接上Hive。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EA6dflOj-1570519657880)(D:\学习笔记\kettle\保存图片\kettle连接Hive\01创建新的连接至Hive.jpg)]

    这里第一次连接时报错,怀疑是Hive没启动,后面在node-1上运行hive发现还是不行,然后使用node-3远程连接Hive,再在这进行测试,发现ok。

  2. 选取要导出的表,后续的步骤一致了。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fI2pjzMn-1570519657881)(D:\学习笔记\kettle\保存图片\kettle连接Hive\02结果输出.jpg)]

向Hive中写入数据

将刚刚下载下来的数据写入到test1表中。

首先拉出excel输出和表输入,然后老步骤,不过这里的数据库连接是连接Hive。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r1lemhLF-1570519657884)(D:\学习笔记\kettle\保存图片\kettle连接Hive\03数据写入Hive.jpg)]

通过Hadoopcopyfiles作业组件把数据加载到hive数据库中

将下面链接下载好的数据上传至Hive中。

<http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000>

  1. 先在Hive上创建对应的表。

建表语句:

create table pttest.weblogs(
	t_ip string,
    full_request string,
    day string,
    month string,
    month_num int,
    year string,
    hour string,
    minute string,
    second string,
    timezone string,
    http_verb string,
    uri string,
    http_status_code string,
    bytes_returned string,
    referrer string,
    user_agent string
)
row format delimited fields terminated by '\t';

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kyhiuznK-1570519657885)(D:\学习笔记\kettle\保存图片\kettle连接Hive\04创建表.jpg)]

  1. 然后创建一个作业(这里不是创建转换),使用Hadoop copy file 作业组件。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DFPgWKgr-1570519657885)(D:\学习笔记\kettle\保存图片\kettle连接Hive\05上传数据.jpg)]

  1. 查看结果。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iVZIZ82K-1570519657886)(D:\学习笔记\kettle\保存图片\kettle连接Hive\06作业结果.jpg)]

执行Hive的SQL语句

创建一个作业,使用核心对象下的脚本里的SQL,连接上Hive,然后执行下面SQL。

SQL语句:

create table pttest.weblogs_agg
as 
select t_ip,year,month,month_num,count(*) 
from pttest.weblogs
group by t_ip,year,month,month_num;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Dmya6jtK-1570519657887)(D:\学习笔记\kettle\保存图片\kettle连接Hive\07hiveSQL结果.jpg)]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章