hive四種排序order by，sort by，distribute by，cluster by的區別

1.數據準備

創建person表

CREATE TABLE `person`(
  `id` int, 
  `name` string, 
  `address` string)

添加如下數據：

hive> insert into person values(1, 'lisi', 'beijing');
hive> insert into person values(2, 'zhangsan', 'chengdu');
hive> insert into person values(3, 'wangwu', 'shanghai');
hive> insert into person values(4, 'zhaoliu', 'guangzhou');
hive> insert into person values(5, 'name5', 'beijing');

2.order by

order by會對查詢結果執行一個全局排序，reducer的數量是1。因此這個過程可能會很漫長。

hive> select * from person  order by  id desc;
5       name5   beijing
4       zhaoliu guangzhou
3       wangwu  shanghai
2       zhangsan        chengdu
1       lisi    beijing

3.sort by

sort by 只會對每個reducer 中的數據進行排序，也就是執行一個局部排序過程。

hive> set mapreduce.job.reduces=3;
hive> insert overwrite local directory '/root/sortby-result' select * from person sort by id desc;

# 每個分區的數據按id降序
[root@master ~]# cat /root/sortby-result/000000_0 
5name5beijing
[root@master ~]# cat /root/sortby-result/000001_0 
4zhaoliuguangzhou
3wangwushanghai
2zhangsanchengdu
[root@master ~]# cat /root/sortby-result/000002_0 
1lisibeijing

4.distribute by

distribute by 控制mapper中的輸出在 reducer 中是如何進行劃分的，使用distribute by可以保證相同key的記錄被劃分到一個reducer中。

# 以address分區然後再按id排序
hive> set mapreduce.job.reduces=3;
hive> insert overwrite local directory '/root/distributeby-result' select * from person distribute by address  sort by id desc;

[root@master ~]# cat /root/distributeby-result/000000_0 
4zhaoliuguangzhou
3wangwushanghai
[root@master ~]# cat /root/distributeby-result/000001_0 
5name5beijing
1lisibeijing
[root@master ~]# cat /root/distributeby-result/000002_0 
2zhangsanchengdu

5.cluster by

distribute by 和 sort by 合用就相當於cluster by，但是cluster by 不能指定排序爲asc或 desc 的規則，只能是升序排列。

hive> set mapreduce.job.reduces=3;
hive> insert overwrite local directory '/root/clusterby-result' select * from person cluster by address;

[root@master ~]# cat /root/distributeby-result/000000_0 
4zhaoliuguangzhou
3wangwushanghai
[root@master ~]# cat /root/distributeby-result/000001_0 
5name5beijing
1lisibeijing
[root@master ~]# cat /root/distributeby-result/000002_0 
2zhangsanchengdu

hive四種排序order by，sort by，distribute by，cluster by的區別

1.數據準備

2.order by

3.sort by

4.distribute by

5.cluster by

Android啓動過程-萬字長文(Android14)

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

Spark job提交流程源代碼分析

SparkContext 初始化源代碼分析

HDFS源代碼分析之DataNode DirectoryScanner實現

strace命令使用

HDFS源代碼分析之DataNode BlockScanner實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結