浅析Hive的group by和count（distinct）

原創

2018-09-04 00:21

首先，Hive的group by和count（distinct）都是去除重复的数据，某种程度上来说，两者产生的结果是一样的。

实例代码：

select a,count(distinct b) from t group by a

select tt.a,count(tt.b) from (select a,b from t group by a,b)tt group by tt.a

上面两句代码产生的结果是一样的，但是两者从效率和空间复杂度上来讲，是有很大的差别的。

distinct会将b列所有的数据保存到内存中，形成一个类似hash的结构，速度是十分的块；但是在大数据背景下，因为b列所有的值都会形成以key值，极有可能发生OOM。

group by会先把b列的值进行排序，如果以快速派序来说的话，他的空间复杂度就是O(1)，时间复杂度是O（nlogn），这样在大数据的环境下，只有排序阶段会比较慢，时间复杂度是O(nlogn)。

两者比较来说，distinct 耗费内存，但是效率极高，但是数据较大时，可能会产生OOM；group by如果在时间复杂度允许的情况下，可以展现出突出的空间复杂度的优势。

最后，对于Hive来说，含有distinct的HQL语句，如果遇到瓶颈，想要调优，第一时间都是想到用group by来替换distinct来实现对数据的去重。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

java基本调优

一、基本代碼的調優。老生常談，沒什麼可說的，減少沒必要的的代碼，注重註釋，命名規範等。二、減小沒有必要的操作對像的創建是一個很消耗內存的，所以我們應該儘量減少對象的創建，在需要的時候才創建，做到一次初始化到處使用的原則，在

2020-07-01 22:28:07

【linux】循序渐进学运维-基础篇-操作系统初始化

大家好，我是高勝寒，本文是Linux運維-循序漸進學運維-基礎篇的第60篇文章文章目錄前言安裝Linux後的初始化操作1. 關閉selinux功能2. 精簡開機啓動項a) 開啓自啓動服務b) 刪除特殊的用戶和用戶組3. 用戶及密

高胜寒|职场引路人

2020-07-07 21:30:38

JVM——JVM性能调优

JVM性能調優的經驗整個堆大小=年輕代大小 + 年老代大小 + 持久代大小 -Xms ：最小可用內存 -Xmx ：最大可用內存 -Xmn（New Generation）：年輕代大小 -XX:SurviorRatio=x ：設置

Oo此岸花开oO

2020-07-07 13:10:05

jvm的性能调优的学习（一）

1 基於jdk命令行的工具 1.1jvm的參數類型標準參數 -help -server -client -version -showversion -cp -classpath X參數非標準化參數 -Xint :解釋執行 -X

2020-07-06 06:44:12

jvm的性能调优的学习（二）

1 垃圾收集器 serial串行收集器：serial,serial old parallel並行收集器:parallerl scavenge,parallel old,強調吞吐量 concurrent併發收集器：cms,G1,強

2020-07-06 06:44:12

Logstash调优——自定义插件

雖然Logstash提供了N多的過濾器插件，但是有木有最切合自己公司業務的插件呢？恰好，你只是做最簡單的業務日誌處理，比如日期、字段刪除、字段替換等工作，那麼Logstash自帶的插件就可滿足。但是，當你的日誌需要外部數據進行豐富，那你怎

小安子antianchi

2020-07-05 08:07:12

idea如何读取配置properties文件以及加载外部文件目录下的配置

如何去讀properties結尾的文件,方便程序的靈活配置參數首先建立`PropertiesReader類一般放在util包下面 public class PropertiesReader { /** * 讀取配置文件 */

weixin_43662454

2020-07-01 20:53:27

logstash处理解析失败的数据,不写入数据库或elasticsearch

filter { dissect{ mapping => { "message" => "%{clientip} - - [%{time_local}] %{request} %{url} " } } i

weixin_43662454

2020-07-01 20:53:26

postgres如何不插入重复的值

用一句sql語句搞定 INSERT INTO pm (metric, objectname, c_md5, e_md5) SELECT 'oracle', 'OR' ,'4', '7' WHERE NOT EXISTS(SELEC

weixin_43662454

2020-07-01 20:53:26

mysql调优实践（二）

Mysql優化實踐 1. LIMIT 語句分頁查詢是最常用的場景之一，但也通常也是最容易出問題的地方。比如對於下面簡單的語句，一般DBA想到的辦法是在type, name, create_time字段上加組合索引。這樣條件排序都能有效的

2020-06-29 21:14:12

调优案例分析

堆外內存導致的溢出除了java堆和永生代之外，西面這些區域還會佔用較多的內存，這裏所有內存總和受到操作系統進程最大內存的限制。 Direct Memory 線程堆棧 Socket緩存區：每個socket連接都receive和s

2020-06-28 15:04:14

Hive数据倾斜(调优)解决方案

在做Shuffle階段的優化過程中，遇到了數據傾斜的問題，造成了對一些情況下優化效果不明顯。主要是因爲在Job完成後的所得到的Counters是整個Job的總和，優化是基於這些Counters得出的平均值，而由於數據傾斜的原

2020-06-27 23:35:17

系统调优-sysbench对mysql数据库进行压力测试

轉載請註明出處：https://blog.csdn.net/qq_30186661/article/details/80224301 一、安裝sysbench 平臺：ubuntu curl -s https://packagecloud

一蓑烟雨任平生_

2020-06-24 23:56:43

Python - MySQL数据库相关对象及优化操作

Python數據庫的Connection、Cursor兩大對象 Python數據庫圖解流程參數優化 url 在url後加上參數rewriteBatchedStatements=true表示MySQL服務開啓批次寫入，此參數

做一只精致IT小白

2020-06-24 23:24:33

StopWatch 监控代码运行时间

@Override public PageResult<PexContentBill> userDoneWithPage(PexContentBillVo cond) { StopWatch sw = new StopWat

李氏程序员

2020-06-23 13:56:51

24小時熱門文章

最新文章

最新評論文章