行轉列：collect_list(不去重) collect_set(去重)

它們都是將分組中的某列轉爲一個數組返回，不同的是collect_list不去重而collect_set去重

concat_ws(',',collect_set(column))

做簡單的實驗加深理解，創建一張實驗用表，存放用戶每天點播視頻的記錄：

create table t_visit_video (

username string,

video_name string

) partitioned by (day string)

row format delimited fields terminated by ',';

在本地文件系統創建測試數據文件：

張三,大唐雙龍傳

李四,天下無賊

張三,神探狄仁傑

李四,霸王別姬

王五,機器人總動員

王五,放牛班的春天

王五,盜夢空間

將數據加載到Hive表：

1	`load` `data` `local` `inpath` `'/root/hive/visit.data'` `into` `table` `t_visit_video partition (day='20180516');`

按用戶分組，取出每個用戶每天看過的所有視頻的名字：

1	`select` `username, collect_list(video_name)` `from` `t_visit_video` `group` `by` `username ;`

但是上面的查詢結果有點問題，因爲霸王別姬實在太好看了，所以李四這傢伙看了兩遍，這直接就導致得到的觀看過視頻列表有重複的，所以應該增加去重，使用collect_set，其與collect_list的區別就是會去重：

1	`select` `username, collect_set(video_name)` `from` `t_visit_video` `group` `by` `username;`

李四的觀看記錄中霸王別姬只出現了一次，實現了去重效果。

突破group by限制

還可以利用collect來突破group by的限制，Hive中在group by查詢的時候要求出現在select後面的列都必須是出現在group by後面的，即select列必須是作爲分組依據的列，但是有的時候我們想根據A進行分組然後隨便取出每個分組中的一個B，代入到這個實驗中就是按照用戶進行分組，然後隨便拿出一個他看過的視頻名稱即可：

1	`select` `username, collect_list(video_name)[0]` `from` `t_visit_video` `group` `by` `username;`

video_name不是分組列，依然能夠取出這列中的數據。

合併多列：concat_ws 與 concat

一、CONCAT（）函數
CONCAT（）函數用於將多個字符串連接成一個字符串。
使用數據表Info作爲示例，其中SELECT id,name FROM info LIMIT 1;的返回結果爲
+----+--------+
| id | name   |
+----+--------+
|  1 | BioCyc |
+----+--------+
1、語法及使用特點：
CONCAT(str1,str2,…)
返回結果爲連接參數產生的字符串。如有任何一個參數爲NULL ，則返回值爲 NULL。可以有一個或多個參數。

2、使用示例：
SELECT CONCAT(id, ‘，’, name) AS con FROM info LIMIT 1;返回結果爲
+----------+
| con      |
+----------+
| 1,BioCyc |
+----------+

SELECT CONCAT(‘My’, NULL, ‘QL’);返回結果爲
+--------------------------+
| CONCAT('My', NULL, 'QL') |
+--------------------------+
| NULL                     |
+--------------------------+

3、如何指定參數之間的分隔符
使用函數CONCAT_WS（）。使用語法爲：CONCAT_WS(separator,str1,str2,…)
CONCAT_WS() 代表 CONCAT With Separator ，是CONCAT()的特殊形式。第一個參數是其它參數的分隔符。分隔符的位置放在要連接的兩個字符串之間。分隔符可以是一個字符串，也可以是其它參數。如果分隔符爲 NULL，則結果爲 NULL。函數會忽略任何分隔符參數後的 NULL 值。但是CONCAT_WS()不會忽略任何空字符串。 (然而會忽略所有的 NULL）。

如SELECT CONCAT_WS('_',id,name) AS con_ws FROM info LIMIT 1;返回結果爲
+----------+
| con_ws   |
+----------+
| 1_BioCyc |
+----------+

SELECT CONCAT_WS(',','First name',NULL,'Last Name');返回結果爲
+----------------------------------------------+
| CONCAT_WS(',','First name',NULL,'Last Name') |
+----------------------------------------------+
| First name,Last Name                         |
+----------------------------------------------+

二、GROUP_CONCAT（）函數
GROUP_CONCAT函數返回一個字符串結果，該結果由分組中的值連接組合而成。
使用表info作爲示例，其中語句SELECT locus,id,journal FROM info WHERE locus IN('AB086827','AF040764');的返回結果爲
+----------+----+--------------------------+
| locus    | id | journal                  |
+----------+----+--------------------------+
| AB086827 |  1 | Unpublished              |
| AB086827 |  2 | Submitted (20-JUN-2002)  |
| AF040764 | 23 | Unpublished              |
| AF040764 | 24 | Submitted (31-DEC-1997)  |
+----------+----+--------------------------+

1、使用語法及特點：
GROUP_CONCAT([DISTINCT] expr [,expr ...]
[ORDER BY {unsigned_integer | col_name | formula} [ASC | DESC] [,col ...]]
[SEPARATOR str_val])
在 MySQL 中，你可以得到表達式結合體的連結值。通過使用 DISTINCT 可以排除重複值。如果希望對結果中的值進行排序，可以使用 ORDER BY 子句。
SEPARATOR 是一個字符串值，它被用於插入到結果值中。缺省爲一個逗號 (",")，可以通過指定 SEPARATOR "" 完全地移除這個分隔符。
可以通過變量 group_concat_max_len 設置一個最大的長度。在運行時執行的句法如下： SET [SESSION | GLOBAL] group_concat_max_len = unsigned_integer;
如果最大長度被設置，結果值被剪切到這個最大長度。如果分組的字符過長，可以對系統參數進行設置：SET @@global.group_concat_max_len=40000;

2、使用示例：
語句 SELECT locus,GROUP_CONCAT(id) FROM info WHERE locus IN('AB086827','AF040764') GROUP BY locus; 的返回結果爲
+----------+------------------+
| locus    | GROUP_CONCAT(id) |
+----------+------------------+
| AB086827 | 1,2              |
| AF040764 | 23,24            |
+----------+------------------+

語句 SELECT locus,GROUP_CONCAT(distinct id ORDER BY id DESC SEPARATOR '_') FROM info WHERE locus IN('AB086827','AF040764') GROUP BY locus;的返回結果爲
+----------+----------------------------------------------------------+
| locus    | GROUP_CONCAT(distinct id ORDER BY id DESC SEPARATOR '_') |
+----------+----------------------------------------------------------+
| AB086827 | 2_1                                                      |
| AF040764 | 24_23                                                    |
+----------+----------------------------------------------------------+

語句SELECT locus,GROUP_CONCAT(concat_ws(', ',id,journal) ORDER BY id DESC SEPARATOR '. ') FROM info WHERE locus IN('AB086827','AF040764') GROUP BY locus;的返回結果爲
+----------+--------------------------------------------------------------------------+
| locus    | GROUP_CONCAT(concat_ws(', ',id,journal) ORDER BY id DESC SEPARATOR '. ') |
+----------+--------------------------------------------------------------------------+
| AB086827 | 2, Submitted (20-JUN-2002). 1, Unpublished                               |
| AF040764 | 24, Submitted (31-DEC-1997) . 23, Unpublished                            |

列轉行： (對某列拆分，一列拆多行)

使用函數：lateral view explode(split(column, ',')) num -- 數字

lateral view explode(split(column, ',')) adtable -- 字符串

select user_id,order_value,order_id
from lie_col
lateral view explode(split(order_value,',')) num as order_id
limit 10;

//結果
user_id    order_value    order_id
104408    2909888,2662805,2922438,674972,2877863,190237    2909888
104408    2909888,2662805,2922438,674972,2877863,190237    2662805
104408    2909888,2662805,2922438,674972,2877863,190237    2922438
104408    2909888,2662805,2922438,674972,2877863,190237    674972
104408    2909888,2662805,2922438,674972,2877863,190237    2877863
104408    2909888,2662805,2922438,674972,2877863,190237    190237
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    2982655
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    814964
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    1484250
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    2323912
Time taken: 0.096 seconds, Fetched: 10 row(s)

Hive之行轉列-合併多列-列轉行

行轉列：collect_list(不去重) collect_set(去重)

突破group by限制

合併多列：concat_ws 與 concat

列轉行： (對某列拆分，一列拆多行)

Sqoop命令

spark-sql性能優化之——動態實現多個列應用同一個函數

Spark實現行列轉換pivot和unpivot

Spark中廣播變量詳解以及如何動態更新廣播變量

Spark Yarn 調度器Scheduler詳解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結