使用row_number編號後截斷行錯亂丟失的情況

原創

2020-02-21 04:44

最近在弄新組用戶畫像標籤（特徵）工程，需要提取用戶一些標籤排序前n的數據。格式如下：

	標籤1	標籤2	標籤3
用戶編號1	0	23	12
	。。。	。。。	。。。

新建三列作爲三個標籤數值的排名，截斷top30並輸出，類似於標籤1_rank<30 and 標籤2_rank<30 and 標籤3_rank<30

但對同一個用戶聚合所有標籤下的值後，出來後，發現每一次的運行結果都不一樣，與原表中的數據對不上。一步一步重新跑sql，發現代碼似乎也看不出什麼問題，頭疼得不行。

直到找了一個厲害的大佬請教，才發現原因是因爲用了row_number作爲排序函數，row_number會對相同的數字隨機排序，並從小到大編號，我的問題就在於，有很多爲0的值被隨機排序了，而我在截斷top30時用的語句是標籤1_rank<30 and 標籤2_rank<30 and 標籤3_rank<30，導致有的標籤1爲0，其他標籤不爲0的數據也被截斷了，如下表，因爲標籤1_rank爲31的用戶編號1就這麼帶着它的有效數據一起消失了。。。

	標籤1	標籤2	標籤3	標籤1_rank	標籤2_rank	標籤3_rank
用戶編號1	0	23	12	31	1	3
	。。。	。。。	。。。	。。。	。。。	。。。

後來用dense_rank代替row_number這個問題就解決了。。。

至於value，row_number, rank, dense_rank有什麼不同，看下圖。。。

發佈了1 篇原創文章 · 獲贊 1 · 訪問量 6225

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive sql優化

hive sql 運行太慢，如何優化？經驗不豐富的數據分析或者BI工程師往往上來就看sql,調整sql內容，其實不然。一.業務層面 first of all, 優先了解sql反應的業務，先把業務梳理清晰，去除掉不必要的表，關聯。這個

ronaldo_liu2018

2020-07-03 10:12:40

hive,spark sql優化

一.hive sql優化 1.發生數據傾斜，如何解決？什麼是數據傾斜？由於數據分佈不均勻，造成數據大量的集中到一點，造成數據熱點 1.1 原因 1)、key分佈不均勻 2)、業務數據本身的特性 3)、建表時考慮不周 4)、某些SQL

ronaldo_liu2018

2020-07-03 10:12:40

dbeaver常用快捷鍵

hot key ctrl + enter 執行sql ctrl + \ 執行sql,保留之前窗口結果 ctrl + shift + ↑ 向上複製一行 ctrl + shift + ↓ 向下複製一行 ctrl + alt + F 對sql

ronaldo_liu2018

2020-07-03 10:12:40

presto sql輸入表、輸入字段、limit、join操作解析

前言一段時間沒有寫文章了，寫下最近做的事情。目前我們這邊有一個metabase 查詢平臺供運營、分析師、產品等人員使用，我們的查詢都是使用 presto 引擎。並且我們的大數據組件都使用的是 emr 組件，並且涉及到中國、美西

2020-06-23 08:41:55

SQL 性能調優---轉（數據小斑馬）這位大神的

SQL 性能調優—轉（數據小斑馬）這位大神的原文鏈接：https://blog.csdn.net/cindy407/article/details/90679314 今天聽組內SQL小王子分享了一篇Hive Sql性能優化的總結

淡泊以明志&宁静以致远

2020-06-17 13:00:36

Hive 基於 Hadoop 進行數據清洗及數據統計

收集數據到Hadoop hdfs 使用ETL(MapReduce)進行數據清洗 (更新元數據 target) Hive 關聯外部表創建工程添加MapReduce 依賴 pom.xml <?xml version="1.0

2020-06-09 18:01:55

HIVE SQL 時間函數

淡泊以明志&宁静以致远

2020-02-25 00:14:56

HIVE 自建落地表

淡泊以明志&宁静以致远

2020-02-25 00:14:56

Hive UDF整理

2020-02-21 14:52:24

hive lateral view 與 explode詳解

2020-02-21 14:52:24

Hive sql優化

hive sql 運行太慢，如何優化？經驗不豐富的數據分析或者BI工程師往往上來就看sql,調整sql內容，其實不然。一.業務層面 first of all, 優先了解sql反應的業務，先把業務梳理清晰，去除掉不必要的表，關聯。這個

ronaldo_liu2018

2020-07-03 10:12:40

hive,spark sql優化

一.hive sql優化 1.發生數據傾斜，如何解決？什麼是數據傾斜？由於數據分佈不均勻，造成數據大量的集中到一點，造成數據熱點 1.1 原因 1)、key分佈不均勻 2)、業務數據本身的特性 3)、建表時考慮不周 4)、某些SQL

ronaldo_liu2018

2020-07-03 10:12:40

dbeaver常用快捷鍵

hot key ctrl + enter 執行sql ctrl + \ 執行sql,保留之前窗口結果 ctrl + shift + ↑ 向上複製一行 ctrl + shift + ↓ 向下複製一行 ctrl + alt + F 對sql

ronaldo_liu2018

2020-07-03 10:12:40

presto sql輸入表、輸入字段、limit、join操作解析

前言一段時間沒有寫文章了，寫下最近做的事情。目前我們這邊有一個metabase 查詢平臺供運營、分析師、產品等人員使用，我們的查詢都是使用 presto 引擎。並且我們的大數據組件都使用的是 emr 組件，並且涉及到中國、美西

2020-06-23 08:41:55

SQL 性能調優---轉（數據小斑馬）這位大神的

SQL 性能調優—轉（數據小斑馬）這位大神的原文鏈接：https://blog.csdn.net/cindy407/article/details/90679314 今天聽組內SQL小王子分享了一篇Hive Sql性能優化的總結

淡泊以明志&宁静以致远

2020-06-17 13:00:36

24小時熱門文章

最新文章

最新評論文章