Hive 調優

原創

IT路上的苦行僧

2020-02-22 23:23

目錄

改寫SQL實現

使用grouping sets代替union

分解count(distinct)

使用SQL-Hint 語法

Hive配置開關

改寫SQL實現

使用grouping sets代替union

-- 優化前
SELECT s_age,s_sex,count(1) 
FROM student_tb_orc
GROUP BY s_age,s_sex
UNION ALL
SELECT s_age,null,count(1) 
FROM student_tb_orc
GROUP BY s_age,s_sex;

-- 優化後
SELECT s_age,s_sex,count(1) 
FROM student_tb_orc
GROUP BY s_age,s_sex
GROUPING SETS(s_age,(s_age,s_sex));

分解count(distinct)

-- 原代碼
SELECT COUNT(DISTINCT user_id),COUNT(DISTINCT cuid)
FROM udw.udw_event
WHERE event_action='searchbox_mobile_app_operate'
    AND event_day='${DAY}'

-- 上面代碼主要問題，COUNT_DISTINCT 只有1個reduce，形成單點瓶頸
-- 修改後代碼
SET mapred.reduce.tasks=300;
SELECT COUNT(DISTINCT user_id),COUNT(DISTINCT cuid)
FROM
(
SELECT cuid,user_id,COUNT(1)
FROM udw.udw_event
WHERE event_action='searchbox_mobile_app_operate'
    AND event_day='${DAY}'
GROUP BY cuid
) tmp_t;

使用SQL-Hint 語法

MAPJOIN Hint

STREAMTABLE

Hive配置開關

並行執行

向量開關

參考文章

1. https://blog.csdn.net/hysfwjr/article/details/104071583

2.《Hive性能調優實戰》，林志煌

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

HIVE常用SQL

1、判斷分區是否存在並創建 ALTER TABLE app.union_open_gateway_comm_log ADD if not exists partition(dt='2019-10-11') 2、顯示錶接口 SHOW

2020-06-26 00:31:46

HIVE獲取大於當天的時間戳

SELECT unix_timestamp(from_unixtime(unix_timestamp(),'yyyy-MM-dd 00:00:00')); 獲取當天0點開始的時間戳

2020-07-07 18:04:23

hive-site.xml 參數設置

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed to the Apache Softw

2020-07-06 11:05:42

yarn裏有大量的短暫killed的hive任務問題排查

問題：我們用AWS EMR的時候發現在yarn的application manager ui裏有大量killed的hive任務，而且非常之多，如截圖所,我們是通過hive server2方式提交任務的：解決方案：首先想到的是不是有

2020-07-06 11:05:32

數據倉庫，Hive中使用不等於符號進行條件過濾時的坑

最近在建設數據倉庫，處理數據的過程中，經常反覆使用hive的HQL語句，儘管HQL和SQL語言有很多相同之處，但也並不是說HQL就能通用SQL的語法。在使用過程中要尤爲注意。事情經過是這樣的，我在把業務系統數據同步到數倉(數據存儲在Hi

2020-07-06 09:10:24

Hive 面試題總結

目錄排序分組類 JOIN類窗口函數類參考文章排序類 1、有1億個用戶，存儲在表users中，包含用戶uid、用戶年紀age、用戶消費總金額total，其中以uid唯一標識1個用戶，按照用戶年齡從大到小排序，如果年齡相同則以消費總

IT路上的苦行僧

2020-06-30 04:55:05

通俗易懂的Hive知識分享

hive sql 通過hive cli或者hive server2（實質上是jdbc連接） hive cli： hive -e “your sql” 執行sql並退出 hive -S -e “your sql” 靜默模式，返回結果

2020-06-29 00:30:42

hive array、collect_list、collect_set、concat_ws

1、array():將兩列合併爲一列如將a字段和b字段合併爲 c字段 hive> select array(a,b) from temp.xxxx; OK [“aa”,“aa”] [“aa”,“cc”] [“aa”,“bb

难得糊涂_不解释

2020-06-28 07:43:48

hive合併小文件

set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.orcfile.stripe.level=true; set hive.m

难得糊涂_不解释

2020-06-28 07:43:48

hive動態分區最大分區問題

｀｀｀ set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic

难得糊涂_不解释

2020-06-28 07:43:48

GenericUDF udf在不同數據壓縮格式下的處理

package com.**.udf; import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.e

难得糊涂_不解释

2020-06-28 07:43:48

HIVE數據查詢

數據： request_id app_key method_name api_name request_time request_param union_id 0b115ef6_jyvs8p54_39039180 unknowledge

2020-06-26 00:31:46

HiveQL操作簡要數據庫和表的相關

--01建數據庫 CREATE DATABASE IF NOT EXISTS DATABASE_NAME; --02查詢數據庫 SHOW DATAB

2020-06-25 05:10:51

hive面試題總結（2020最新版）

本文目錄一、hive架構相關二、hive的特點三、內部表和外部表的區別？四、4個by的區別？五、介紹一下有哪些常用函數？5.1、行轉列函數5.2、列轉行函數5.3、Rank排名函數5.4、窗口函數（開窗函數）六、UDF、UDAF、

2020-06-24 17:01:19

一文徹底學會hive分桶表（實戰詳解）

本文目錄一、分桶表概述1.1、什麼是分桶表？1.2、分桶表和分區表有啥區別？二、分桶表實戰2.1、創建一個分桶表2.2、準備數據2.3、向分桶表導入數據2.3.1、錯誤導入示範（引出分桶的本質）2.3.2、正確導入示範（引出分桶規

2020-06-24 17:01:18

24小時熱門文章

最新文章

最新評論文章