hive分區處理注意點
在優化一個使用4W個map的job的時候,發現了一個使用hive的注意點,跟大家分享下。
hive表中一般都有分區,在程序裏我們會動態取某個分區裏的數據,這時分區值就是一個函數。這個函數的選擇就是關鍵了。
優化前的分區函數是: dt = date_sub(from_unixtime(unix_timestamp(), 'yyyy-MM-dd'), 2) (水平有限,當時就這麼寫了)
,map數:4W+
優化後的分區函數是:dt = sysdate( - 2) (日期處理函數),map數:860
之前map數過多是否是摟了很多分區,這個還不太確定,有哪位大神知道,麻煩告訴我下。
代碼與業務有關,就不方便放這了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
HIVE 權限配置 [沒有趟過坑的人生是不完美的]
张伯毅
2020-07-08 02:23:22
Hive 窗口函數(Windowing Functions)
路越
2020-07-08 12:17:40
hive使用tez環境配置
梦里却知是客
2020-07-08 11:59:58
tez 0.9.0 的安裝和測試
Aidon-东哥博客
2020-07-08 11:21:42
hive常用窗口函數
Aidon-东哥博客
2020-07-08 11:21:42
hive配置教程詳解
qq_45973003
2020-07-08 11:12:13
datax同步mysql數據到hive
ASN_forever
2020-07-08 10:43:36
Apache Hive+Kerberos安裝配置及 Kettle訪問帶 Kerberos 認證的 Hive的集成
YoreYuan
2020-07-08 09:55:10
Hive批量刪除一段時間分區和動態分區更新數據
Lv_Hulk
2020-07-08 09:11:58
如何批量修改hive local的存儲位置
大黄_sama
2020-07-08 05:08:59
spark-sql使用hive的自定函數配置
大黄_sama
2020-07-08 05:08:59
hive 存儲格式對比
weixin_41734687
2020-07-08 01:20:46
hive 數據傾斜原因及解決
weixin_41734687
2020-07-08 01:20:46