kettle連接Hive操作

kettle連接Hive操作

從Hive中下載數據到excel中

  1. 拉出表輸入步驟,然後創建一個新的數據庫連接,連接上Hive。

    [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-EA6dflOj-1570519657880)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\01創建新的連接至Hive.jpg)]

    這裏第一次連接時報錯,懷疑是Hive沒啓動,後面在node-1上運行hive發現還是不行,然後使用node-3遠程連接Hive,再在這進行測試,發現ok。

  2. 選取要導出的表,後續的步驟一致了。

    [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-fI2pjzMn-1570519657881)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\02結果輸出.jpg)]

向Hive中寫入數據

將剛剛下載下來的數據寫入到test1表中。

首先拉出excel輸出和表輸入,然後老步驟,不過這裏的數據庫連接是連接Hive。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-r1lemhLF-1570519657884)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\03數據寫入Hive.jpg)]

通過Hadoopcopyfiles作業組件把數據加載到hive數據庫中

將下面鏈接下載好的數據上傳至Hive中。

<http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000>

  1. 先在Hive上創建對應的表。

建表語句:

create table pttest.weblogs(
	t_ip string,
    full_request string,
    day string,
    month string,
    month_num int,
    year string,
    hour string,
    minute string,
    second string,
    timezone string,
    http_verb string,
    uri string,
    http_status_code string,
    bytes_returned string,
    referrer string,
    user_agent string
)
row format delimited fields terminated by '\t';

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-kyhiuznK-1570519657885)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\04創建表.jpg)]

  1. 然後創建一個作業(這裏不是創建轉換),使用Hadoop copy file 作業組件。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-DFPgWKgr-1570519657885)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\05上傳數據.jpg)]

  1. 查看結果。

    [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-iVZIZ82K-1570519657886)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\06作業結果.jpg)]

執行Hive的SQL語句

創建一個作業,使用核心對象下的腳本里的SQL,連接上Hive,然後執行下面SQL。

SQL語句:

create table pttest.weblogs_agg
as 
select t_ip,year,month,month_num,count(*) 
from pttest.weblogs
group by t_ip,year,month,month_num;

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Dmya6jtK-1570519657887)(D:\學習筆記\kettle\保存圖片\kettle連接Hive\07hiveSQL結果.jpg)]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章