淺析Hive的group by和count（distinct）

原創

2018-09-04 00:21

首先，Hive的group by和count（distinct）都是去除重複的數據，某種程度上來說，兩者產生的結果是一樣的。

實例代碼：

select a,count(distinct b) from t group by a

select tt.a,count(tt.b) from (select a,b from t group by a,b)tt group by tt.a

上面兩句代碼產生的結果是一樣的，但是兩者從效率和空間複雜度上來講，是有很大的差別的。

distinct會將b列所有的數據保存到內存中，形成一個類似hash的結構，速度是十分的塊；但是在大數據背景下，因爲b列所有的值都會形成以key值，極有可能發生OOM。

group by會先把b列的值進行排序，如果以快速派序來說的話，他的空間複雜度就是O(1)，時間複雜度是O（nlogn），這樣在大數據的環境下，只有排序階段會比較慢，時間複雜度是O(nlogn)。

兩者比較來說，distinct 耗費內存，但是效率極高，但是數據較大時，可能會產生OOM；group by如果在時間複雜度允許的情況下，可以展現出突出的空間複雜度的優勢。

最後，對於Hive來說，含有distinct的HQL語句，如果遇到瓶頸，想要調優，第一時間都是想到用group by來替換distinct來實現對數據的去重。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

java基本調優

一、基本代碼的調優。老生常談，沒什麼可說的，減少沒必要的的代碼，注重註釋，命名規範等。二、減小沒有必要的操作對像的創建是一個很消耗內存的，所以我們應該儘量減少對象的創建，在需要的時候才創建，做到一次初始化到處使用的原則，在

2020-07-01 22:28:07

【linux】循序漸進學運維-基礎篇-操作系統初始化

大家好，我是高勝寒，本文是Linux運維-循序漸進學運維-基礎篇的第60篇文章文章目錄前言安裝Linux後的初始化操作1. 關閉selinux功能2. 精簡開機啓動項a) 開啓自啓動服務b) 刪除特殊的用戶和用戶組3. 用戶及密

高胜寒|职场引路人

2020-07-07 21:30:38

JVM——JVM性能調優

JVM性能調優的經驗整個堆大小=年輕代大小 + 年老代大小 + 持久代大小 -Xms ：最小可用內存 -Xmx ：最大可用內存 -Xmn（New Generation）：年輕代大小 -XX:SurviorRatio=x ：設置

Oo此岸花开oO

2020-07-07 13:10:05

jvm的性能調優的學習（一）

1 基於jdk命令行的工具 1.1jvm的參數類型標準參數 -help -server -client -version -showversion -cp -classpath X參數非標準化參數 -Xint :解釋執行 -X

2020-07-06 06:44:12

jvm的性能調優的學習（二）

1 垃圾收集器 serial串行收集器：serial,serial old parallel並行收集器:parallerl scavenge,parallel old,強調吞吐量 concurrent併發收集器：cms,G1,強

2020-07-06 06:44:12

Logstash調優——自定義插件

雖然Logstash提供了N多的過濾器插件，但是有木有最切合自己公司業務的插件呢？恰好，你只是做最簡單的業務日誌處理，比如日期、字段刪除、字段替換等工作，那麼Logstash自帶的插件就可滿足。但是，當你的日誌需要外部數據進行豐富，那你怎

小安子antianchi

2020-07-05 08:07:12

idea如何讀取配置properties文件以及加載外部文件目錄下的配置

如何去讀properties結尾的文件,方便程序的靈活配置參數首先建立`PropertiesReader類一般放在util包下面 public class PropertiesReader { /** * 讀取配置文件 */

weixin_43662454

2020-07-01 20:53:27

logstash處理解析失敗的數據,不寫入數據庫或elasticsearch

filter { dissect{ mapping => { "message" => "%{clientip} - - [%{time_local}] %{request} %{url} " } } i

weixin_43662454

2020-07-01 20:53:26

postgres如何不插入重複的值

用一句sql語句搞定 INSERT INTO pm (metric, objectname, c_md5, e_md5) SELECT 'oracle', 'OR' ,'4', '7' WHERE NOT EXISTS(SELEC

weixin_43662454

2020-07-01 20:53:26

mysql調優實踐（二）

Mysql優化實踐 1. LIMIT 語句分頁查詢是最常用的場景之一，但也通常也是最容易出問題的地方。比如對於下面簡單的語句，一般DBA想到的辦法是在type, name, create_time字段上加組合索引。這樣條件排序都能有效的

2020-06-29 21:14:12

調優案例分析

堆外內存導致的溢出除了java堆和永生代之外，西面這些區域還會佔用較多的內存，這裏所有內存總和受到操作系統進程最大內存的限制。 Direct Memory 線程堆棧 Socket緩存區：每個socket連接都receive和s

2020-06-28 15:04:14

Hive數據傾斜(調優)解決方案

在做Shuffle階段的優化過程中，遇到了數據傾斜的問題，造成了對一些情況下優化效果不明顯。主要是因爲在Job完成後的所得到的Counters是整個Job的總和，優化是基於這些Counters得出的平均值，而由於數據傾斜的原

2020-06-27 23:35:17

系統調優-sysbench對mysql數據庫進行壓力測試

轉載請註明出處：https://blog.csdn.net/qq_30186661/article/details/80224301 一、安裝sysbench 平臺：ubuntu curl -s https://packagecloud

一蓑烟雨任平生_

2020-06-24 23:56:43

Python - MySQL數據庫相關對象及優化操作

Python數據庫的Connection、Cursor兩大對象 Python數據庫圖解流程參數優化 url 在url後加上參數rewriteBatchedStatements=true表示MySQL服務開啓批次寫入，此參數

做一只精致IT小白

2020-06-24 23:24:33

StopWatch 監控代碼運行時間

@Override public PageResult<PexContentBill> userDoneWithPage(PexContentBillVo cond) { StopWatch sw = new StopWat

李氏程序员

2020-06-23 13:56:51

24小時熱門文章

最新文章

最新評論文章