kettle連接Hive操作

原創

xxydzyr

2020-07-05 04:51

kettle連接Hive操作

文章目錄

kettle連接Hive操作

從Hive中下載數據到excel中

拉出表輸入步驟，然後創建一個新的數據庫連接，連接上Hive。

$[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-EA6dflOj-1570519657880)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\01創建新的連接至Hive.jpg)]$

這裏第一次連接時報錯，懷疑是Hive沒啓動，後面在node-1上運行hive發現還是不行，然後使用node-3遠程連接Hive，再在這進行測試，發現ok。
選取要導出的表，後續的步驟一致了。

$[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-fI2pjzMn-1570519657881)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\02結果輸出.jpg)]$

向Hive中寫入數據

將剛剛下載下來的數據寫入到test1表中。

首先拉出excel輸出和表輸入，然後老步驟，不過這裏的數據庫連接是連接Hive。

$[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-r1lemhLF-1570519657884)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\03數據寫入Hive.jpg)]$

通過Hadoopcopyfiles作業組件把數據加載到hive數據庫中

將下面鏈接下載好的數據上傳至Hive中。

<http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000>

先在Hive上創建對應的表。

建表語句：

create table pttest.weblogs(
	t_ip string,
    full_request string,
    day string,
    month string,
    month_num int,
    year string,
    hour string,
    minute string,
    second string,
    timezone string,
    http_verb string,
    uri string,
    http_status_code string,
    bytes_returned string,
    referrer string,
    user_agent string
)
row format delimited fields terminated by '\t';

$[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-kyhiuznK-1570519657885)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\04創建表.jpg)]$

然後創建一個作業（這裏不是創建轉換），使用Hadoop copy file 作業組件。

$[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-DFPgWKgr-1570519657885)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\05上傳數據.jpg)]$

查看結果。

$[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-iVZIZ82K-1570519657886)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\06作業結果.jpg)]$

執行Hive的SQL語句

創建一個作業，使用核心對象下的腳本里的SQL，連接上Hive，然後執行下面SQL。

SQL語句：

create table pttest.weblogs_agg
as 
select t_ip,year,month,month_num,count(*) 
from pttest.weblogs
group by t_ip,year,month,month_num;

$[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Dmya6jtK-1570519657887)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\07hiveSQL結果.jpg)]$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

kettle連接Hive操作

kettle連接Hive操作

文章目錄

從Hive中下載數據到excel中

向Hive中寫入數據

通過Hadoopcopyfiles作業組件把數據加載到hive數據庫中

執行Hive的SQL語句

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

YARN基礎概念

Hive創建自定義UDF函數

Sqoop的導入和導出

Azkanban基本概念

Hive MR優化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結