Hive批量删除一段时间分区和动态分区更新数据

原創

2020-07-08 09:11

Hive批量删除一段时间分区和动态分区更新数据

1.hive动态分区

-- 批量删除分区数据
alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130')

-- 开启动态分区
SET hive.exec.dynamic.partition=true; --开启动态分区，默认是false
SET hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的，否则必须要有静态分区才能使用 

-- 省略了部分表和字段
insert overwrite table dm.dm_call_gateway_bill_time_detail
partition(dt) --分区字段
SELECT date_format(t.START_TIME,'yyyy-MM-dd') AS p_date,
       g.gateway_name,
       t.end_time,
      -- 以上是表字段
      
      date_format(t.START_TIME,'yyyyMMdd') as dt
      --最后一个字段为动态分区字段
 FROM ods_fdm.fdm_call_transaction t --  全量表
WHERE t.dt = '${p_date}' 
  AND date_format(t.START_TIME,'yyyyMMdd') >= '20191101'
  AND date_format(t.START_TIME,'yyyyMMdd') <= '20191130';

要点：因为dm.dm_call_gateway_bill_time_detail表中只有3个字段，所以当我们查询了4个字段时（多了dt字段,名字任意），所以系统默认以最后一个字段dt为分区名，因为分区表的分区字段默认也是该表中的字段，且依次排在表中字段的最后面。

所以分区需要分区的字段只能放在最后面，不能把顺序弄错。如果我们查询5个字段的话，则会报
错，因为该表加上分区字段也才4个。要注意系统是根据查询字段的位置推断分区名的，而不是字段名称。

SHOW PARTITIONS  dm.dm_call_gateway_bill_time_detail;
    dt=20191101
	dt=20191102
	dt=20191103
....
	dt=20191129
    dt=20191130
...

2.多个分区字段时，实现半自动分区（部分字段静态分区，注意静态分区字段要在动态前面）

1.创建一个只有一个字段，两个分区字段的分区表
hive (fdm_sor)> create table ds_parttion(id int ) 
              > partitioned by (state string ,ct string );
2.往该分区表半动态分区插入数据 
hive>
 set hive.exec.dynamici.partition=true;
 set hive.exec.dynamic.partition.mode=nonstrict;
 insert overwrite table ds_parttion
 partition(state='china',ct)  #state分区为静态，ct为动态分区，以查询的city字段为分区名
 select id ,city from  mytest_tmp2_p; 
 
3.查询结果显示：
hive (fdm_sor)> select *  from ds_parttion where state='china';
ds_parttion.id  ds_parttion.state       ds_parttion.ct
4       china   beijing
3       china   beijing
2       china   beijing
1       china   beijing
4       china   beijing1
3       china   beijing1
2       china   beijing1
1       china   beijing1
 
hive (fdm_sor)> select *  from ds_parttion where state='china' and ct='beijing';
ds_parttion.id  ds_parttion.state       ds_parttion.ct
4       china   beijing
3       china   beijing
2       china   beijing
1       china   beijing
 
hive (fdm_sor)> select *  from ds_parttion where state='china' and ct='beijing1';
ds_parttion.id  ds_parttion.state       ds_parttion.ct
4       china   beijing1
3       china   beijing1
2       china   beijing1
1       china   beijing1
Time taken: 0.072 seconds, Fetched: 4 row(s)

3.多个分区字段时，全部实现动态分区插入数据

 set hive.exec.dynamici.partition=true;
 set hive.exec.dynamic.partition.mode=nonstrict;
 insert overwrite table ds_parttion
 partition(state,ct)
 select id ,country,city from  mytest_tmp2_p;

注意：字段的个数和顺序不能弄错
4.动态分区表的属性
使用动态分区表必须配置的参数：

 set hive.exec.dynamic.partition =true（默认false）,表示开启动态分区功能
 set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的，否则必须有静态分区字段

5.动态分区相关的调优参数

 set  hive.exec.max.dynamic.partitions.pernode=100 （默认100，一般可以设置大一点，比如1000）
 表示每个maper或reducer可以允许创建的最大动态分区个数，默认是100，超出则会报错。

  set hive.exec.max.dynamic.partitions =1000(默认值) 
  表示一个动态分区语句可以创建的最大动态分区个数，超出报错

 set hive.exec.max.created.files =10000(默认) 
 全局可以创建的最大文件个数，超出报错。

6.小福利：更新增量数据的shell脚本

#!/usr/bin/env bash

start_date="$1"
end_date="$2"
task_job="$3"
while [ ${start_date} -le ${end_date} ]
do
  echo "${start_date}"
  python /data/apps/${task_job} -d ${start_date}
  start_date=`date -d "${start_date} +1 day" +%Y%m%d`
done

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive批量删除一段时间分区和动态分区更新数据

Hive批量删除一段时间分区和动态分区更新数据

hive鎖的問題

Hive批量刪除一段時間分區和動態分區更新數據

Tomcat配置和優化 Tomcat配置和優化

巧用 CASE WHEN THEN END

踩過數據倉庫hive的坑：hive設置嚴格模式

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結