五、窗口函數應用實例
5.1 連續登陸用戶
需求
當前有一份用戶登錄數據如下圖所示,數據中有兩個字段,分別是userId和loginTime。
userId表示唯一的用戶ID,唯一標識一個用戶,loginTime表示用戶的登錄日期,例如第一條數據就表示A在2021年3月22日登錄了。
現在需要對用戶的登錄次數進行統計,得到連續登陸N(N>=2)天的用戶。
例如統計連續兩天的登錄的用戶,需要返回A和C,因爲A在22/23/24都登錄了,所以肯定是連續兩天登錄,C在22和23號登錄了,所以也是連續兩天登錄的。
例如統計連續三天的登錄的用戶,只能返回A,因爲只有A是連續三天登錄的。
分析
基於以上的需求根據數據尋找規律,要想得到連續登陸用戶,必須找到兩個相同用戶ID的行之間登陸日期之間的關係。
例如:統計連續登陸兩天的用戶,只要用戶ID相等,並且登陸日期之間相差1天即可。基於這個規律,我們有兩種方案可以實現該需求。
方案一:實現表中的數據自連接,構建笛卡爾積,在結果中找到符合條件的id即可
方案二:使用窗口函數來實現
建表
- 創建表
-- 切換數據庫
use db_function;
-- 建表
create table tb_login(
userid string,
logintime string
) row format delimited fields terminated by '\t';
- 創建數據:vim /export/data/login.log
A 2021-03-22
B 2021-03-22
C 2021-03-22
A 2021-03-23
C 2021-03-23
A 2021-03-24
B 2021-03-24
- 加載數據
load data local inpath '/export/data/login.log' into table tb_login;
- 查詢數據
select * from tb_login;
方案一:自連接過濾實現
- 構建笛卡爾積
select
a.userid as a_userid,
a.logintime as a_logintime,
b.userid as b_userid,
b.logintime as b_logintime
from tb_login a,tb_login b;
- 查看數據
+-----------+--------------+-----------+--------------+
| A_USERID | A_LOGINTIME | B_USERID | B_LOGINTIME |
+-----------+--------------+-----------+--------------+
| A | 2021-03-22 | A | 2021-03-22 |
| B | 2021-03-22 | A | 2021-03-22 |
| C | 2021-03-22 | A | 2021-03-22 |
| A | 2021-03-23 | A | 2021-03-22 |
| C | 2021-03-23 | A | 2021-03-22 |
| A | 2021-03-24 | A | 2021-03-22 |
| B | 2021-03-24 | A | 2021-03-22 |
| A | 2021-03-22 | B | 2021-03-22 |
| B | 2021-03-22 | B | 2021-03-22 |
| C | 2021-03-22 | B | 2021-03-22 |
| A | 2021-03-23 | B | 2021-03-22 |
| C | 2021-03-23 | B | 2021-03-22 |
| A | 2021-03-24 | B | 2021-03-22 |
| B | 2021-03-24 | B | 2021-03-22 |
| A | 2021-03-22 | C | 2021-03-22 |
| B | 2021-03-22 | C | 2021-03-22 |
| C | 2021-03-22 | C | 2021-03-22 |
| A | 2021-03-23 | C | 2021-03-22 |
| C | 2021-03-23 | C | 2021-03-22 |
| A | 2021-03-24 | C | 2021-03-22 |
| B | 2021-03-24 | C | 2021-03-22 |
| A | 2021-03-22 | A | 2021-03-23 |
| B | 2021-03-22 | A | 2021-03-23 |
| C | 2021-03-22 | A | 2021-03-23 |
| A | 2021-03-23 | A | 2021-03-23 |
| C | 2021-03-23 | A | 2021-03-23 |
| A | 2021-03-24 | A | 2021-03-23 |
| B | 2021-03-24 | A | 2021-03-23 |
| A | 2021-03-22 | C | 2021-03-23 |
| B | 2021-03-22 | C | 2021-03-23 |
| C | 2021-03-22 | C | 2021-03-23 |
| A | 2021-03-23 | C | 2021-03-23 |
| C | 2021-03-23 | C | 2021-03-23 |
| A | 2021-03-24 | C | 2021-03-23 |
| B | 2021-03-24 | C | 2021-03-23 |
| A | 2021-03-22 | A | 2021-03-24 |
| B | 2021-03-22 | A | 2021-03-24 |
| C | 2021-03-22 | A | 2021-03-24 |
| A | 2021-03-23 | A | 2021-03-24 |
| C | 2021-03-23 | A | 2021-03-24 |
| A | 2021-03-24 | A | 2021-03-24 |
| B | 2021-03-24 | A | 2021-03-24 |
| A | 2021-03-22 | B | 2021-03-24 |
| B | 2021-03-22 | B | 2021-03-24 |
| C | 2021-03-22 | B | 2021-03-24 |
| A | 2021-03-23 | B | 2021-03-24 |
| C | 2021-03-23 | B | 2021-03-24 |
| A | 2021-03-24 | B | 2021-03-24 |
| B | 2021-03-24 | B | 2021-03-24 |
+-----------+--------------+-----------+--------------+
- 保存爲表
create table tb_login_tmp as
select
a.userid as a_userid,
a.logintime as a_logintime,
b.userid as b_userid,
b.logintime as b_logintime
from tb_login a,tb_login b;
- 過濾數據:用戶id相同並且登陸日期相差1
select
a_userid,a_logintime,b_userid,b_logintime
from tb_login_tmp
where a_userid = b_userid
and cast(substr(a_logintime,9,2) as int) - 1 = cast(substr(b_logintime,9,2) as int);
- 統計連續登陸兩天的用戶
select
distinct a_userid
from tb_login_tmp
where a_userid = b_userid
and cast(substr(a_logintime,9,2) as int) - 1 = cast(substr(b_logintime,9,2) as int);
- 問題
如果現在需要統計連續3天的用戶個數,如何實現呢?或者說需要統計連續5天、連續7天、連續10天、連續30天登陸的用戶如何進行計算呢?
如果使用自連接的方式會非常的麻煩才能實現統計連續登陸兩天以上的用戶,並且性能很差,所以我們需要使用第二種方式來實現。
方案二:窗口函數實現
窗口函數lead
-
功能:用於從當前數據中基於當前行的數據向後偏移取值
-
語法:lead(colName,N,defautValue)
- colName:取哪一列的值
- N:向後偏移N行
- defaultValue:如果取不到返回的默認值
-
分析
當前數據中記錄了每個用戶每一次登陸的日期,一個用戶在一天只有1條信息,我們可以基於用戶的登陸信息,找到如下規律:
連續兩天登陸 : 用戶下次登陸時間 = 本次登陸以後的第二天
連續三天登陸 : 用戶下下次登陸時間 = 本次登陸以後的第三天
……依次類推。
我們可以對用戶ID進行分區,按照登陸時間進行排序,通過lead函數計算出用戶下次登陸時間,通過日期函數計算出登陸以後第二天的日期,如果相等即爲連續兩天登錄。
- 統計連續2天登錄
select
userid,
logintime,
-- 本次登陸日期的第二天
date_add(logintime,1) as nextday,
-- 按照用戶id分區,按照登陸日期排序,取下一次登陸時間,取不到就爲0
lead(logintime,1,0) over (partition by userid order by logintime) as nextlogin
from tb_login;
with t1 as (
select
userid,
logintime,
-- 本次登陸日期的第二天
date_add(logintime,1) as nextday,
-- 按照用戶id分區,按照登陸日期排序,取下一次登陸時間,取不到就爲0
lead(logintime,1,0) over (partition by userid order by logintime) as nextlogin
from tb_login )
select distinct userid from t1 where nextday = nextlogin;
- 統計連續3天登錄
select
userid,
logintime,
-- 本次登陸日期的第三天
date_add(logintime,2) as nextday,
-- 按照用戶id分區,按照登陸日期排序,取下下一次登陸時間,取不到就爲0
lead(logintime,2,0) over (partition by userid order by logintime) as nextlogin
from tb_login;
with t1 as (
select
userid,
logintime,
-- 本次登陸日期的第三天
date_add(logintime,2) as nextday,
-- 按照用戶id分區,按照登陸日期排序,取下下一次登陸時間,取不到就爲0
lead(logintime,2,0) over (partition by userid order by logintime) as nextlogin
from tb_login )
select distinct userid from t1 where nextday = nextlogin;
- 統計連續N天登錄
select
userid,
logintime,
-- 本次登陸日期的第N天
date_add(logintime,N-1) as nextday,
-- 按照用戶id分區,按照登陸日期排序,取下下一次登陸時間,取不到就爲0
lead(logintime,N-1,0) over (partition by userid order by logintime) as nextlogin
from tb_login;
5.2 級聯累加求和
需求
當前有一份消費數據如下,記錄了每個用戶在每個月的所有消費記錄,數據表中一共有三列:
- userId:用戶唯一id,唯一標識一個用戶
- mth:用戶消費的月份,一個用戶可以在一個月多次消費
- money:用戶每次消費的金額
現在需要基於用戶每個月的多次消費的記錄進行分析,統計得到每個用戶在每個月的消費總金額以及當前累計消費總金額,最後結果如下:
以用戶A爲例:
A在2021年1月份,共四次消費,分別消費5元、15元、8元、5元,所以本月共消費33元,累計消費33元。
A在2021年2月份,共兩次消費,分別消費4元、6元,所以本月共消費10元,累計消費43元。
分析
如果要實現以上需求,首先要統計出每個用戶每個月的消費總金額,分組實現集合,但是需要按照用戶ID,將該用戶這個月之前的所有月份的消費總金額進行累加實現。該需求可以通過兩種方案來實現:
方案一:分組統計每個用戶每個月的消費金額,然後構建自連接,根據條件分組聚合
方案二:分組統計每個用戶每個月的消費金額,然後使用窗口聚合函數實現
建表
- 創建表
-- 切換數據庫
use db_function;
-- 建表
create table tb_money(
userid string,
mth string,
money int
) row format delimited fields terminated by '\t';
- 創建數據:vim /export/data/money.tsv
A 2021-01 5
A 2021-01 15
B 2021-01 5
A 2021-01 8
B 2021-01 25
A 2021-01 5
A 2021-02 4
A 2021-02 6
B 2021-02 10
B 2021-02 5
A 2021-03 7
B 2021-03 9
A 2021-03 11
B 2021-03 6
- 加載數據
load data local inpath '/export/data/money.tsv' into table tb_money;
- 查詢數據
select * from tb_money;
- 統計得到每個用戶每個月的消費總金額
create table tb_money_mtn as
select
userid,
mth,
sum(money) as m_money
from tb_money
group by userid,mth;
方案一:自連接分組聚合
- 基於每個用戶每個月的消費總金額進行自連接
select
a.userid as auserid,
a.mth as amth,
a.m_money as am_money,
b.userid as buserid,
b.mth as bmth,
b.m_money as bm_money
from tb_money_mtn a join tb_money_mtn b on a.userid = b.userid;
- 將每個月之前月份的數據過濾出來
select
a.userid as auserid,
a.mth as amth,
a.m_money as am_money,
b.userid as buserid,
b.mth as bmth,
b.m_money as bm_money
from tb_money_mtn a join tb_money_mtn b on a.userid = b.userid
where a.mth >= b.mth;
- 對每個用戶每個月的金額進行分組,聚合之前月份的消費金額
select
a.userid as auserid,
a.mth as amth,
a.m_money as am_money,
sum(b.m_money) as t_money
from tb_money_mtn a join tb_money_mtn b on a.userid = b.userid
where a.mth >= b.mth
group by a.userid,a.mth,a.m_money;
方案二:窗口函數實現
- 窗口函數sum
- 功能:用於實現基於窗口的數據求和
- 語法:sum(colName) over (partition by col order by col)
colName:對某一列的值進行求和
- 分析
基於每個用戶每個月的消費金額,可以通過窗口函數對用戶進行分區,按照月份排序,然後基於聚合窗口,從每個分區的第一行累加到當前和,即可得到累計消費金額。
- 統計每個用戶每個月消費金額及累計總金額
select
userid,
mth,
m_money,
sum(m_money) over (partition by userid order by mth) as t_money
from tb_money_mtn;
5.3 分組TopN
需求
工作中經常需要實現TopN的需求,例如熱門商品Top10、熱門話題Top20、熱門搜索Top10、地區用戶Top10等等,TopN是大數據業務分析中最常見的需求。
普通的TopN只要基於數據進行排序,然後基於排序後的結果取前N個即可,相對簡單,但是在TopN中有一種特殊的TopN計算,叫做分組TopN。
分組TopN指的是基於數據進行分組,從每個組內取TopN,不再基於全局取TopN。如果要實現分組取TopN就相對麻煩。
例如:現在有一份數據如下,記錄這所有員工的信息:
如果現在有一個需求:查詢每個部門薪資最高的員工的薪水,這個可以直接基於表中數據分組查詢得到
select deptno,max(salary) from tb_emp group by deptno;
但是如果現在需求修改爲:統計查詢每個部門薪資最高的前兩名員工的薪水,這時候應該如何實現呢?
分析
根據上述需求,這種情況下是無法根據group by分組聚合實現的,因爲分組聚合只能實現返回一條聚合的結果,但是需求中需要每個部門返回薪資最高的前兩名,有兩條結果,這時候就需要用到窗口函數中的分區來實現了。
建表
- 創建表
-- 切換數據庫
use db_function;
-- 建表
create table tb_emp(
empno string,
ename string,
job string,
managerid string,
hiredate string,
salary double,
bonus double,
deptno string
) row format delimited fields terminated by '\t';
- 創建數據:vim /export/data/emp.txt
7369 SMITH CLERK 7902 1980-12-17 800.00 20
7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30
7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30
7566 JONES MANAGER 7839 1981-4-2 2975.00 20
7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30
7782 CLARK MANAGER 7839 1981-6-9 2450.00 10
7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20
7839 KING PRESIDENT 1981-11-17 5000.00 10
7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30
7876 ADAMS CLERK 7788 1987-5-23 1100.00 20
7900 JAMES CLERK 7698 1981-12-3 950.00 30
7902 FORD ANALYST 7566 1981-12-3 3000.00 20
7934 MILLER CLERK 7782 1982-1-23 1300.00 10
- 加載數據
load data local inpath '/export/data/emp.txt' into table tb_emp;
- 查詢數據
select empno,ename,salary,deptno from tb_emp;
實現
- TopN函數:row_number、rank、dense_rank
row_number:對每個分區的數據進行編號,如果值相同,繼續編號
rank:對每個分區的數據進行編號,如果值相同,編號相同,但留下空位
dense_rank:對每個分區的數據進行編號,如果值相同,編號相同,不留下空位
基於row_number實現,按照部門分區,每個部門內部按照薪水降序排序
select
empno,
ename,
salary,
deptno,
row_number() over (partition by deptno order by salary desc) as rn
from tb_emp;
- 過濾每個部門的薪資最高的前兩名
with t1 as (
select
empno,
ename,
salary,
deptno,
row_number() over (partition by deptno order by salary desc) as rn
from tb_emp )
select * from t1 where rn < 3;
六、拉鍊表的設計與實現
6. 1 數據同步問題
數據同步的場景
Hive在實際工作中主要用於構建離線數據倉庫,定期的從各種數據源中同步採集數據到Hive中,經過分層轉換提供數據應用。例如,每天需要從MySQL中同步最新的訂單信息、用戶信息、店鋪信息等到數據倉庫中,進行訂單分析、用戶分析。
例如:MySQL中有一張用戶表:tb_user,每個用戶註冊完成以後,就會在用戶表中新增該用戶的信息,記錄該用戶的id、手機號碼、用戶名、性別、地址等信息。
每天都會有用戶註冊,產生新的用戶信息,我們每天都需要將MySQL中的用戶數據同步到Hive數據倉庫中,在做用戶分析時,需要對用戶的信息做統計分析,例如統計新增用戶的個數、總用戶個數、用戶性別分佈、地區分佈、運營商分佈等指標。
數據同步的問題
在實現數據倉庫數據同步的過程中,我們必須保證Hive中的數據與MySQL中的數據是一致的,這樣才能確保我們最終分析出來的結果是準確的,沒有問題的,但是在實現同步的過程中,這裏會面臨一個問題:如果MySQL中的數據發生了修改,Hive中如何存儲被修改的數據?
例如以下情況
- 2021-01-01:MySQL中有10條用戶信息
- 2021-01-02:Hive進行數據分析,將MySQL中的數據同步
- 2021-01-02:MySQL中新增2條用戶註冊數據,並且有1條用戶數據發生更新
新增兩條用戶數據011和012
008的addr發生了更新,從gz更新爲sh
2021-01-03:Hive需要對2號的數據進行同步更新處理
問題:新增的數據會直接加載到Hive表中,但是更新的數據如何存儲在Hive表中?
解決方案
方案一:在Hive中用新的addr覆蓋008的老的addr,直接更新
優點:實現最簡單,使用起來最方便
缺點:沒有歷史狀態,008的地址是1月2號在sh,但是1月2號之前是在gz的,如果要查詢008的1月2號之前的addr就無法查詢,也不能使用sh代替
方案二:每次數據改變,根據日期構建一份全量的快照表,每天一張表
2021-01-02:Hive中有一張表tb_user_2021-01-02
2021-01-03:Hive中有一張表tb_user_2021-01-03
優點:記錄了所有數據在不同時間的狀態
缺點:冗餘存儲了很多沒有發生變化的數據,導致存儲的數據量過大
方案三:構建拉鍊表,通過時間標記發生變化的數據的每種狀態的時間週期
6.2 拉鍊表的設計
功能與應用場景
拉鍊表專門用於解決在數據倉庫中數據發生變化如何實現數據存儲的問題,如果直接覆蓋歷史狀態,會導致無法查詢歷史狀態,如果將所有數據單獨切片存儲,會導致存儲大量非更新數據的問題。拉鍊表的設計是將更新的數據進行狀態記錄,沒有發生更新的數據不進行狀態存儲,用於存儲所有數據在不同時間上的所有狀態,通過時間進行標記每個狀態的生命週期,查詢時,根據需求可以獲取指定時間範圍狀態的數據,默認用9999-12-31等最大值來表示最新狀態。
實現過程
整體實現過程一般分爲三步,第一步先增量採集所有新增數據【增加的數據和發生變化的數據】放入一張增量表。第二步創建一張臨時表,用於將老的拉鍊表與增量表進行合併。第三步,最後將臨時表的數據覆蓋寫入拉鍊表中。例如:
當前MySQL中的數據:
當前Hive數據倉庫中拉鍊表的數據:
- step1:增量採集變化數據,放入增量表中
- step2:構建臨時表,將Hive中的拉鍊表與臨時表的數據進行合併
- step3:將臨時表的數據覆蓋寫入拉鍊表中
6.3 拉鍊表的實現
數據準備
- 創建dw層拉鍊表
-- 創建數據庫
create database db_zipper;
use db_zipper;
-- 創建拉鍊表
create table dw_zipper(
userid string,
phone string,
nick string,
gender int,
addr string,
starttime string,
endtime string
) row format delimited fields terminated by '\t';
- 構建模擬數據:vim /export/data/zipper.txt
001 186xxxx1234 laoda 0 sh 2021-01-01 9999-12-31
002 186xxxx1235 laoer 1 bj 2021-01-01 9999-12-31
003 186xxxx1236 laosan 0 sz 2021-01-01 9999-12-31
004 186xxxx1237 laosi 1 gz 2021-01-01 9999-12-31
005 186xxxx1238 laowu 0 sh 2021-01-01 9999-12-31
006 186xxxx1239 laoliu 1 bj 2021-01-01 9999-12-31
007 186xxxx1240 laoqi 0 sz 2021-01-01 9999-12-31
008 186xxxx1241 laoba 1 gz 2021-01-01 9999-12-31
009 186xxxx1242 laojiu 0 sh 2021-01-01 9999-12-31
010 186xxxx1243 laoshi 1 bj 2021-01-01 9999-12-31
- 加載拉鍊表數據
-- 加載模擬數據
load data local inpath '/export/data/zipper.txt' into table dw_zipper;
- 查詢數據
select userid,nick,addr,starttime,endtime from dw_zipper;
增量採集
- 創建ods層增量表
create table ods_zipper_update(
userid string,
phone string,
nick string,
gender int,
addr string,
starttime string,
endtime string
) row format delimited fields terminated by '\t';
- 創建模擬數據:vim /export/data/update.txt
008 186xxxx1241 laoba 1 sh 2021-01-02 9999-12-31
011 186xxxx1244 laoshi 1 jx 2021-01-02 9999-12-31
012 186xxxx1245 laoshi 0 zj 2021-01-02 9999-12-31
- 加載更新數據
load data local inpath '/export/data/update.txt' into table ods_zipper_update;
- 查詢數據
select userid,nick,addr,starttime,endtime from ods_zipper_update;
合併數據
- 創建臨時表
create table tmp_zipper(
userid string,
phone string,
nick string,
gender int,
addr string,
starttime string,
endtime string
) row format delimited fields terminated by '\t';
- 合併拉鍊表與增量表
insert overwrite table tmp_zipper
select
userid,
phone,
nick,
gender,
addr,
starttime,
endtime
from ods_zipper_update
union all
-- 查詢原來拉鍊表的所有數據,並將這次需要更新的數據的endTime更改爲更新值的startTime
select
a.userid,
a.phone,
a.nick,
a.gender,
a.addr,
a.starttime,
-- 如果這條數據沒有更新或者這條數據不是要更改的數據,就保留原來的值,否則就改爲新數據的開始時間-1
if(b.userid is null or a.endtime < '9999-12-31', a.endtime , date_sub(b.starttime,1)) as endtime
from dw_zipper a left join ods_zipper_update b
on a.userid = b.userid ;
生成最新拉鍊表
- 覆蓋拉鍊表
insert overwrite table dw_zipper
select * from tmp_zipper;