hive中將單行拆分成多行總結

原創

2020-04-16 13:43

hive中將單行拆分成多行

初始值：

id	name	mobiles
1	jim	139,177,158

想得到的結果：

id	name	mobiles
1	jim	139
1	jim	177
1	jim	158

創建測試數據

CREATE TABLE fwj.customer
(
id STRING,
name STRING,
mobiles STRING);

INSERT INTO fwj.customer
SELECT '1','jim','139,177,158' FROM system.dual;

1.最笨的辦法：

邏輯簡單，寫法粗暴，可拓展性爲0。

SELECT a.id,a.name,substr(a.mobiles,1,3) mobiles FROM fwj.customer a 
UNION ALL
SELECT a.id,a.name,substr(a.mobiles,5,3) mobiles FROM fwj.customer a 
UNION ALL
SELECT a.id,a.name,substr(a.mobiles,9,3) mobiles FROM fwj.customer a 

result:
id    mobiles    name
1    189        jim
1    177        jim
1    158        jim

2. 第二種方法

仔細看看這個mobiles字段，其實我們只要將這個字段中用逗號間隔的值拆開到每一列，然後再和原表關聯就能得到我們想要的答案了。在oracle中有列傳行，hive中也有類似的操作。

SELECT b.id,a.mobiles,b.name FROM (
SELECT explode(split(t.mobiles,',')) mobiles FROM fwj.customer t )a ,  fwj.customer b;

result:
id    mobiles    name
1    189        jim
1    177        jim
1    158        jim

這裏會用到兩個函數。
split(str,sep):
該函數的作用是拆分指定分隔符分割的字符串，返回一個列表。
如：

SELECT split(a.mobiles,',') FROM  fwj.customer a;

result:
["189","177","158"]

explode(arr):
該函數是一個表生成函數。輸入一個列表參數，將列表中的每個值都轉換爲一行。
如：

SELECT explode(plit(a.mobiles,',')) mobiles FROM  fwj.customer a;

result:

mobiles
189
177
158

3.第三種方法

問題雖然解決了，但還不夠完美，表被讀了兩次。能不能一次就能取出我們想要的結果呢？

再來優化一下:
···
SELECT t.id,t.name,explode(split(t.mobiles,',')) mobiles FROM fwj.customer t
···
可惜不行，explode 這類UDTF函數不支持和其他字段一塊被select。

不過，hive提供了 lateral view 側視圖這個功能。

SELECT a.id,a.name,mob.mobile  FROM fwj.customer a lateral view explode(split(a.mobiles,',')) mob AS mobile;

result:
id    mobiles    name
1    189        jim
1    177        jim
1    158        jim

可以理解成在一次查詢中先生成了一個視圖 mob 包含了行轉列後的數據，之後從mob 中取出轉換後的數據，其他字段仍舊從原表中取。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hive中將單行拆分成多行總結

hive中將單行拆分成多行

1.最笨的辦法：

2. 第二種方法

3.第三種方法

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

hive中將單行拆分成多行總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結