SQL乾貨 I 窗口函數的使用


來源:中國統計網


Mysql從8.0版本開始,也和Sql Server、Oracle一樣支持在查詢中使用窗口函數,本文將根據官方文檔,通過實例介紹窗口函數並舉例分組排序函數的使用。


本文用到的學生分數表格和語句如下:
   
   
   
DROP TABLE IF EXISTS Marks;CREATE TABLE Marks(學生 VARCHAR(10), 科目 CHAR(2), 分數 INT);  insert into Marks values  ('趙四','語文',88),('趙四','數學',48),('趙四','英語',75),  ('張三','語文',30),('張三','數學',75),('張三','英語',75),  ('王五','語文',90),('王五','數學',94),('王五','英語',70),  ('李四','語文',82),('李四','數學',69),('李四','英語',90);    SELECT * FROM Marks;

首先創建瞭如下班級分數表格爲例:


窗口函數可以大體分爲兩大類,第一類是能夠作爲窗口函數的聚合函數:SUM、AVG、COUNT、MAX、MIN,第二類是以RANK、DENSE_RANK、ROW_NUMBER爲代表的專用窗口函數。爲了便於理解窗口函數,首先以聚合函數sum()爲例,下面分別使用窗口函數和聚合函數展示每個學生的成績總分:

   
   
   
-- 作爲窗口函數 SELECT 學生,科目,分數, SUM(分數) OVER (PARTITION BY 學生) AS '總分' FROM Marks;


   
   
   
-- 與直接使用sum()聚合函數得到的結果一樣 SELECT 學生,SUM(分數) AS '總分' FROM Marks GROUP BY 學生;


在這個例子中sum()函數作爲窗口函數,通過對‘學生’分區後,加總各個科目的分數得到總分,得分結果與sum()聚合函數的結果一致,但結果中保留了每一行的信息,出現了重複的總分行。

因爲,所有窗口函數的執行在JOIN, WHERE, GROUP BY, HAVING的結果集之後,在ORDER BY, LIMIT, SELECT DISTINCT之前。當PARTITION BY執行時GROUP BY的聚合過程已經完成了,因此不會再產生數據聚合。

窗口函數的語法


   
   
   
window_function_name(expression) OVER ( [partition_defintion] [order_definition] [frame_definition] )

首先需要指定窗口函數的函數名,也就是在上個例子中用的sum(),之後的 OVER 子句中即使沒有內容,括號也需要保留,窗口由 [partition_defintion],[order_definition],[frame_definition] 確定,任何一個都不是必須的。

1.partition_defintio 窗口分區
   
   
   
PARTITION BY expr [, expr] ...

根據表達式的計算結果來進行分區(列名也是一種表達式)。在例子中 "PARTITION BY 學生" 對學生列的值分區。

2. order_definition 窗口排序
ORDER BY expr [ASC|DESC] [, expr [ASC|DESC]] ...

爲分區內的行的排列順序。以下可以實現對學生的科目分數降序排列,並得出學生的科目最高分
   
   
   
SELECT 學生,科目,分數, MAX(分數) OVER (PARTITION BY 學生 ORDER BY 分數 DESC) AS '最高分' FROM Marks;

3. frame_definition 窗口框架
   
   
   
frame_clause: frame_units frame_extentframe_units: {ROWS | RANGE}frame_extent: {frame_start | frame_between}frame_between: BETWEEN frame_start AND frame_endframe_start, frame_end: { CURRENT ROW | UNBOUNDED PRECEDING | UNBOUNDED FOLLOWING | expr PRECEDING | expr FOLLOWING}

窗口框架的作用對分區進一步細分,frame_unit有兩種,分別是ROWS和RANGE,ROWS通過指定當前行之前或之後的固定數目的行來限制分區中的行,RANGE按照排序列的當前值,根據相同值來確定分區中的行。以下通過計算當前行的前兩行的平均值計算分數的移動平均分數。

   
   
   
SELECT 學生,科目,分數, AVG(分數) OVER (PARTITION BY 學生 ORDER BY 分數 ASC ROWS 2 preceding) AS moving_avg      FROM Marks;


下面我們使用RANGE對每個分區內從第一行到當前行計算平均值,可以看到由於RANGE根據當前值來確定行,張三的第二行就已經出現了三門的均分,對於三門分數不同的李四,滑動平均值得結果沒有變化。

   
   
   
SELECT 學生,科目,分數, AVG(分數) OVER (PARTITION BY 學生 ORDER BY 分數 ASC RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS AVGFROM Marks;


frame_extent指定幀的起止點,在其中也可以只用frame_start(結束位置就默認爲當前行)和frame_between指定起點和終點

frame_start和frame_end可以是以下幾種:
  • CURRENT ROW: 當前行

  • UNBOUNDED PRECEDING: 區間的第一行

  • UNBOUNDED FOLLOWING:區間的最後一行

  • N PRECEDING: 當前行之前的N行,可以是數字,也可以是一個能計算出數字的表達式

  • N FOLLOWING:當前行之後的N行,可以是數字,也可以是一個能計算出數字的表達式


如果沒指定幀的話,默認的frame取決於ORDER BY。
  • 如果有ORDER BY,SQL會默認幀是區間內從第一行(UNBOUNDED PRECEDING)到當前行(CURRENTROW)


   
   
   
SELECT 學生,科目,分數, MAX(分數) OVER (PARTITION BY 學生 ORDER BY 分數 ASC) AS '最高分' FROM Marks;-- 結果相同SELECT 學生,科目,分數, MAX(分數) OVER (PARTITION BY 學生 ORDER BY 分數 ASC RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS '最高分' FROM Marks;


  • 如果沒有ORDER BY,SQL會默認幀是區間內從第一行(UNBOUNDED PRECEDING)到最後一行(UNBOUNDED FOLLOWING)


   
   
   
SELECT 學生,科目,分數, MAX(分數) OVER (PARTITION BY 學生) AS '最高分' FROM Marks;
-- 結果相同 SELECT 學生,科目,分數, MAX(分數) OVER (PARTITION BY 學生 RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS '最高分'        FROM Marks;


日常我們更常用的是在窗口函數中使用排序函數:
  • ROW_NUMBER: 函數名即是排序方法,也就是輸出結果集分區的行號(例如:1,2,3,4,5...)

  • RANK: 返回結果集的分區內數據進行跳躍排序。也就是爲相同數值的行輸出相同排序結果,對於下一行不同的數據將返回行號(例如:1,1,3,4...)

  • DENSE_RANK: 返回結果集分區中每行的連續排名,排名值沒有間斷。行排名等於該行之前不同排名值的數量加一(例如:1,1,2,3,4...)

  • NTILE: 將有序分區中的數據分發到指定數目的組中。以本文數據爲例,將60-90分的分數等分爲4組,即第1組爲[90, 82.5),第2組爲[82.5, 75),第3組爲[75, 67.5),第4組爲[67.5, 60]


   
   
   
SELECT 學生,科目,分數 ,ROW_NUMBER() OVER (PARTITION BY 科目 ORDER BY 分數 DESC) AS "Row_Number" ,RANK() OVER (PARTITION BY 科目 ORDER BY 分數 DESC) AS 'Rank' ,DENSE_RANK() OVER (PARTITION BY 科目 ORDER BY 分數 DESC) AS "Dense_Rank" ,NTILE(4) OVER (PARTITION BY 科目 ORDER BY 分數 DESC) AS 'Quartile'    FROM Marks;




後臺回覆暗號「進羣」,即刻加入讀者交流羣~


本文分享自微信公衆號 - 凹凸數據(alltodata)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章