本文部分參考自：https://blog.csdn.net/qq_23897391/article/details/100688796

Hive第七天——Hive函數

自己的話：千里之行，始於足下。

每天都要保持前進，我勢必要有強勁的實力，再跟明天的自己問好。

開窗函數：組內排序

開窗函數的固定寫法：

over(partition by 列名1,列名2 …… order by 列名3,列名4 …… [desc])

數據準備:

新建test.txt文件，輸入如下的三列數據，以空格分隔。第一列是月份，第二列代表商鋪名稱，第三列代表該商鋪該月營業額（萬元）。

[root@hadoop ~]# vim test.txt 
 
2019-01 a 4
2019-01 b 3
2019-01 c 3
2019-01 d 2
2019-01 e 1
2019-02 a 1
2019-02 b 2
2019-02 c 3
2019-02 d 3
2019-02 e 4

在hive中新建表temp_test10，將test文件中的數據插入，查看數據。

hive >CREATE TABLE temp_test10 (
     >month STRING comment '月份',
     >shop STRING comment '商鋪名稱',
     >money STRING comment '營業額（萬元）') 
     >row format delimited 
     >fields terminated BY ' ';
 
 
hive >load data local inpath '/root/test.txt' into table temp_test10;
 
hive >select * from temp_test10;
 
temp_test10.month	temp_test10.shop	temp_test10.money
2019-01					a					4
2019-01					b					3
2019-01					c					3
2019-01					d					2
2019-01					e					1
2019-02					a					1
2019-02					b					2
2019-02					c					3
2019-02					d					3
2019-02					e					4

一、row_number()

row_number()會生成數據項在分組中的排名，排名即便相等也不會有並列排名，相同排名隨機排序。

舉例：

1.生成排序後的唯一序號

首先按照月份進行分組，然後每個組內按照營業額從大到小排序，爲組內每一行數據得到一個唯一序號。

hive >SELECT month,shop,MONEY,row_number() 
	 >OVER (PARTITION BY month ORDER BY 	MONEY DESC --按照月份進行分組，然後每個組內按照營業額從大到小排序) 
	 >AS rk  --生成的排序序號
	 >FROM temp_test10
 
 
結果：
 
month	shop	money	rk
2019-01	 a		4  	     1
2019-01	 c		3		 2
2019-01	 b		3		 3
2019-01	 d 		2		 4
2019-01	 e		1		 5
2019-02	 e 		4		 1
2019-02	 d		3		 2
2019-02	 c		3		 3
2019-02	 b		2		 4
2019-02	 a		1		 5

2.取top n

取出1月和2月每個月營業額排名前3的店鋪及營業額。

使用子查詢取出rk<=3的數據即可
 
hive >SELECT *
	 >FROM (SELECT month,shop,MONEY,row_number() 
	 >OVER (PARTITION BY month ORDER BY MONEY DESC --按照月份進行分組，然後每個組內按照營業額從大到小排序) 
	 >AS rkFROM temp_test10) a
	 >WHERE rk <= 3;
 
結果：
a.month	a.shop	a.money	a.rk
2019-01	a	4	1
2019-01	c	3	2
2019-01	b	3	3
2019-02	e	4	1
2019-02	d	3	2
2019-02	c	3	3

如果只有一個分組，那麼可以省略partition by，比如只取出1月營業額排名前3的店鋪及營業額。

hive >SELECT *
	 >FROM (SELECT month,shop,MONEY,row_number() 
	 >OVER (ORDER BY MONEY DESC --按照營業額從大到小排序) 
	 >AS rkFROM temp_test10WHERE month = '2019-01') a
	 >WHERE rk <= 3;
 
結果：
a.month	a.shop	a.money	a.rk
2019-01	a	4	1
2019-01	c	3	2
2019-01	b	3	3

3.每個分組內取出n個隨機值

row_number()配合rand()函數即可實現每個分組內取出n個隨機值的需求。
每個月隨機抽取兩家店鋪:

hive >SELECT *
	 >FROM (SELECT month,shop,MONEY,row_number() 
	 >OVER (PARTITION BY month ORDER BY rand(1) --可以使用任意數作爲種子進行隨機排序，也可以不填，直接使用rand()) 
	 >AS rk FROM temp_test10) a
	 >WHERE rk <= 2; --限制rk來取出n個隨機值
 
結果：
a.month	a.shop	a.money	a.rk
2019-01	c	3	1
2019-01	d	2	2
2019-02	a	1	1
2019-02	e	4	2

二、rank()

rank()可以生成數據項在分組中的排名，排名相等時會產生並列排名，然後會在名次中留下空位。應用場景不多，很少需要使用，瞭解即可。

舉例：

首先按照月份進行分組，然後每個組內按照營業額從大到小排序，生成排名，並列排名後留下空位。

hive >SELECT month,shop,MONEY,rank() 
	 >OVER (PARTITION BY month ORDER BY MONEY DESC --按照月份進行分組，然後每個組內按照營業額從大到小排序) 
	 >AS rk  --生成的排序序號
	 >FROM temp_test10;
 
 
結果：
 
month	shop	money	rk
2019-01	 a		 4		1
2019-01	 c		 3		2
2019-01	 b		 3		2
2019-01	 d		 2		4
2019-01	 e		 1		5
2019-02	 e	  	 4		1
2019-02	 d		 3		2
2019-02	 c		 3		2
2019-02	 b		 2		4
2019-02	 a 		 1		5

三、 dense_rank()

dense_rank()可以生成數據項在分組中的排名，排名相等時會產生並列排名，但不會在名次中留下空位。應用場景也不多，很少需要使用，瞭解即可

舉例：

首先按照月份進行分組，然後每個組內按照營業額從大到小排序，生成排名，並列排名後不要留下空位。

hive >SELECT month,shop,MONEY,dense_rank() 
	 >OVER (PARTITION BY month ORDER BY MONEY DESC --按照月份進行分組，然後每個組內按照營業額從大到小排序) 
	 >AS rk  --生成的排序序號
	 >FROM temp_test10;
 
 
結果：
 
month	shop	money	rk
2019-01	 a	   4		1
2019-01	 c	   3		2
2019-01	 b	   3		2
2019-01	 d	   2		3
2019-01	 e	   1		4
2019-02	 e	   4		1
2019-02	 d	   3		2
2019-02	 c	   3		2
2019-02	 b	   2		3
2019-02	 a	   1		4

四、綜合案例

最後，再拿出一個我自己的舉例：

求每個人前兩高的分數

1.數據準備

vi score.txt

zhangsan,1,90,2
zhangsan,2,95,1
zhangsan,3,68,3
lisi,1,88,3
lisi,2,95,2
lisi,3,98,1

2.導入數據

hive >create table t_score(name string,kcid string,score int)
	 >row format delimited
	 >fields terminated by ',';

hive>load data local inpath '/home/score.txt' into table t_score;

3.查詢數據

（1）按名字分組並在組內排序展示序號

hive> select *,row_number() over(partition by name order by score desc) rank from t_score;

（2）從上表中再查詢排名小於三的數據

hive >select name,kcid,score
	 >from(select *,row_number() over(partition by name order by score desc) as rank from t_score) tmp
	 >where rank<3;

4.最後，應用到之前的json電影評分數據上

求出每個用戶評分最高的3部電影

建表並加載數據
hive >create table t_rate_topn_uid
	 >as
	 >select uid,movie,rate,ts
	 >from(select *,row_number() over(partition by uid order by rate desc) as rank from t_rate) tmp
	 >where rank<11;


查詢
hive> select * from t_rate_topn_uid where uid=1;

這樣，開窗函數中的組內排序就介紹完了，希望對大家有所幫助，可別忘了點贊。

Hive第七天——Hive函數（開窗函數之組內排序）

Hive第七天——Hive函數

開窗函數：組內排序

數據準備:

一、row_number()

舉例：

1.生成排序後的唯一序號

2.取top n

3.每個分組內取出n個隨機值

二、rank()

舉例：

三、 dense_rank()

舉例：

四、綜合案例

1.數據準備

2.導入數據

3.查詢數據

（1）按名字分組並在組內排序展示序號

（2）從上表中再查詢排名小於三的數據

4.最後，應用到之前的json電影評分數據上

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Hive第六天——Hive函數（GROUP BY語句、HAVING語句、ORDER BY語句）

Flume自探（一）—Flume概述及入門

Zookeeper啓動成功後拒絕連接的解決方案

IDEA配置maven並創建maven項目

HBase第二天——HBase安裝

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結