Hive配置中有個參數hive.mapred.mode,分爲nonstrict,strict,默認是nonstrict
如果設置爲strict,會對三種情況的語句在compile環節做過濾:
1. 笛卡爾積Join。這種情況由於沒有指定reduce join key,所以只會啓用一個reducer,數據量大時會造成性能瓶頸
1 2 3 4 5 6 7 8 9 10 |
|
2. order by後面不跟limit。order by會強制將reduce number設置成1,不加limit,會將所有數據sink到reduce端來做全排序。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
3. 讀取的表是partitioned table,但沒有指定partition predicate。
注:如果是多級分區表的話,只要出現任何一個就放行
1 2 3 4 5 6 7 8 9 10 |
|
這三種case在數據量比較大的情況下都會造成生成低效的MR Job,影響執行時間和效率,不過直接拋出exception又感覺太forcefully了。
可以在一些非線上生產環境下的ad-hoc查詢端中開啓strict mode,比如hiveweb,運營工具。
Hive中的排序語法
ORDER BY
hive中的ORDER BY語句和關係數據庫中的sql語法相似。他會對查詢結果做全局排序,這意味着所有的數據會傳送到一個Reduce任務上,這樣會導致在大數量的情況下,花費大量時間。
與數據庫中 ORDER BY 的區別在於在hive.mapred.mode = strict
模式下,必須指定 limit 否則執行會報錯。
hive> set hive.mapred.mode=strict;
hive> select * from test order by id;
FAILED: SemanticException 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'
例子:
hive> set hive.mapred.mode=unstrict;
hive> select * from test order BY id ;
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 1 Cumulative CPU: 1.88 sec HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 880 msec
OK
1 a
1 a
2 b
2 b
3 c
3 c
4 d
4 d
Time taken: 24.609 seconds, Fetched: 8 row(s)
從上面的日誌可以看到:啓動了一個reduce進行全局排序。
SORT BY
SORT BY不是全局排序,其在數據進入reducer前完成排序,因此在有多個reduce任務情況下,SORT BY只能保證每個reduce的輸出有序,而不能保證全局有序。
注意:SORT BY 不受
hive.mapred.mode
參數的影響
你可以通過設置mapred.reduce.tasks
的值來控制reduce的數,然後對reduce輸出的結果做二次排序。
例子:
hive> set mapred.reduce.tasks=3;
hive> select * from test sort BY id ;
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 3 Cumulative CPU: 4.48 sec HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 480 msec
OK
1 a
2 b
3 c
4 d
2 b
3 c
4 d
1 a
Time taken: 29.574 seconds, Fetched: 8 row(s)
從上面的日誌可以看到:啓動了三個reduce分別排序,最後的結果不是有序的。
DISTRIBUTE BY with SORT BY
DISTRIBUTE BY能夠控制map的輸出在reduce中如何劃分。其可以按照指定的字段對數據進行劃分到不同的輸出reduce/文件中。
DISTRIBUTE BY和GROUP BY有點類似,DISTRIBUTE BY控制reduce如何處理數據,而SORT BY控制reduce中的數據如何排序。
注意:hive要求DISTRIBUTE BY語句出現在SORT BY語句之前。
例子:
hive> select * from test distribute BY id sort by id asc;
Job 0: Map: 1 Reduce: 3 Cumulative CPU: 4.24 sec HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 240 msec
OK
3 c
3 c
1 a
1 a
4 d
4 d
2 b
2 b
Time taken: 29.89 seconds, Fetched: 8 row(s)
從上面的日誌可以看到:啓動了三個reduce分別排序,最後的結果不是有序的。
CLUSTER BY來代替
當DISTRIBUTE BY的字段和SORT BY的字段相同時,可以用CLUSTER BY來代替 DISTRIBUTE BY with SORT BY。
注意:CLUSTER BY不能添加desc或者asc。
例子:
hive> select * from test cluster by id asc;
FAILED: ParseException line 1:33 extraneous input 'asc' expecting EOF near '<EOF>'
hive> select * from test cluster by id ;
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 3 Cumulative CPU: 4.58 sec HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 580 msec
OK
3 c
3 c
1 a
1 a
4 d
4 d
2 b
2 b
Time taken: 30.646 seconds, Fetched: 8 row(s)
從上面的日誌可以看到:啓動了三個reduce分別排序,最後的結果不是有序的。
怎樣讓最後的結果是有序的呢?
可以這樣做:
hive> select a.* from (select * from test cluster by id ) a order by a.id ;
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 3 Cumulative CPU: 4.5 sec HDFS Read: 305 HDFS Write: 448 SUCCESS
Job 1: Map: 1 Reduce: 1 Cumulative CPU: 1.96 sec HDFS Read: 1232 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 6 seconds 460 msec
OK
1 a
1 a
2 b
2 b
3 c
3 c
4 d
4 d
Time taken: 118.261 seconds, Fetched: 8 row(s)
總結
- ORDER BY是全局排序,但在數據量大的情況下,花費時間會很長
- SORT BY是將reduce的單個輸出進行排序,不能保證全局有序
- DISTRIBUTE BY可以按指定字段將數據劃分到不同的reduce中
- 當DISTRIBUTE BY的字段和SORT BY的字段相同時,可以用CLUSTER BY來代替 DISTRIBUTE BY with SORT BY。