kettle连接Hive操作

原創

xxydzyr

2020-07-05 04:51

kettle连接Hive操作

文章目录

kettle连接Hive操作

从Hive中下载数据到excel中

拉出表输入步骤，然后创建一个新的数据库连接，连接上Hive。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EA6dflOj-1570519657880)(D:\学习笔记\kettle\保存图片\kettle连接Hive\01创建新的连接至Hive.jpg)]$

这里第一次连接时报错，怀疑是Hive没启动，后面在node-1上运行hive发现还是不行，然后使用node-3远程连接Hive，再在这进行测试，发现ok。
选取要导出的表，后续的步骤一致了。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fI2pjzMn-1570519657881)(D:\学习笔记\kettle\保存图片\kettle连接Hive\02结果输出.jpg)]$

向Hive中写入数据

将刚刚下载下来的数据写入到test1表中。

首先拉出excel输出和表输入，然后老步骤，不过这里的数据库连接是连接Hive。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r1lemhLF-1570519657884)(D:\学习笔记\kettle\保存图片\kettle连接Hive\03数据写入Hive.jpg)]$

通过Hadoopcopyfiles作业组件把数据加载到hive数据库中

将下面链接下载好的数据上传至Hive中。

<http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000>

先在Hive上创建对应的表。

建表语句：

create table pttest.weblogs(
	t_ip string,
    full_request string,
    day string,
    month string,
    month_num int,
    year string,
    hour string,
    minute string,
    second string,
    timezone string,
    http_verb string,
    uri string,
    http_status_code string,
    bytes_returned string,
    referrer string,
    user_agent string
)
row format delimited fields terminated by '\t';

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kyhiuznK-1570519657885)(D:\学习笔记\kettle\保存图片\kettle连接Hive\04创建表.jpg)]$

然后创建一个作业（这里不是创建转换），使用Hadoop copy file 作业组件。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DFPgWKgr-1570519657885)(D:\学习笔记\kettle\保存图片\kettle连接Hive\05上传数据.jpg)]$

查看结果。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iVZIZ82K-1570519657886)(D:\学习笔记\kettle\保存图片\kettle连接Hive\06作业结果.jpg)]$

执行Hive的SQL语句

创建一个作业，使用核心对象下的脚本里的SQL，连接上Hive，然后执行下面SQL。

SQL语句：

create table pttest.weblogs_agg
as 
select t_ip,year,month,month_num,count(*) 
from pttest.weblogs
group by t_ip,year,month,month_num;

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Dmya6jtK-1570519657887)(D:\学习笔记\kettle\保存图片\kettle连接Hive\07hiveSQL结果.jpg)]$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

kettle连接Hive操作

kettle连接Hive操作

文章目录

从Hive中下载数据到excel中

向Hive中写入数据

通过Hadoopcopyfiles作业组件把数据加载到hive数据库中

执行Hive的SQL语句

vue项目获取富文本编辑器wangEditor内容导出为word（html转word格式并下载）

dotnet C# 创建 X11 应用时设置窗口背景颜色

Navicat安装与激活教程

TDengine docker安装方法

vue3组件通信与props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的发布时间

工作中用到的脚本合集

合并代码时Beyond Compare设置

YARN基礎概念

Hive創建自定義UDF函數

Sqoop的導入和導出

Azkanban基本概念

Hive MR優化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結