八、排序介紹--四個by

原創

风zi

2020-05-30 18:02

一、全局排序（Order By）

Order By：全局排序，一個Reducer

1、使用 ORDER BY 子句排序

ASC（ascend）: 升序（默認）
DESC（descend）: 降序

2、ORDER BY 子句在SELECT語句的結尾

3、案例實操

	（1）查詢員工信息按工資升序排列
hive (default)> select * from emp order by sal;
	（2）查詢員工信息按工資降序排列
hive (default)> select * from emp order by sal desc;

4、按照別名排序

按照員工薪水的2倍排序
hive (default)> select ename, sal*2 twosal from emp order by twosal;

5、多個列排序

按照部門和工資升序排序
hive (default)> select ename, deptno, sal from emp order by deptno, sal ;

二、每個MapReduce內部排序（Sort By）

Sort By：每個Reducer內部進行排序，對全局結果集來說不是排序。

實操：

1．設置reduce個數
hive (default)> set mapreduce.job.reduces=3;

2．查看設置reduce個數
hive (default)> set mapreduce.job.reduces;

3．根據部門編號降序查看員工信息
hive (default)> select * from emp sort by empno desc;

4．將查詢結果導入到文件中（按照部門編號降序排序）
hive (default)> insert overwrite local directory '/opt/module/datas/sortby-result'
 select * from emp sort by deptno desc;

三、分區排序（Distribute By）

Distribute By：類似MR中partition，進行分區，結合sort by使用。

注意: Hive要求DISTRIBUTE BY語句要寫在SORT BY語句之前。因爲mr程序就是先分區後排序，hivesql其本質就是mr

對於distribute by進行測試，一定要分配多reduce進行處理，否則無法看到distribute by的效果。

案例實操：

（1）先按照部門編號分區，再按照員工編號降序排序。
hive (default)> set mapreduce.job.reduces=3;
hive (default)> select e.empno,e.ename from emp e distribute by e.empno sort by e.ename desc;

四、 Cluster By—只能`升序`

當distribute by和sorts by字段相同時，可以使用cluster by方式。

cluster by除了具有distribute by的功能外還兼具sort by的功能。但是排序只能是升序排序，不能指定排序規則爲ASC或者DESC。

以下兩種寫法等價：

hive (default)> select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;

注意：按照部門編號分區，不一定就是固定死的數值，可以是20號和30號部門分到一個分區裏面去。

總結：

Order By 只有一個reduce的情況下全局排序
Sort By 單個reduce內排序
Distribute By 分區操作，結合sortby使用就是分區且有序
Distribute By 效果等同Distribute By 與Sort By結合，但只能升序

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

八、排序介紹--四個by

一、全局排序（Order By）

1、使用 ORDER BY 子句排序

2、ORDER BY 子句在SELECT語句的結尾

3、案例實操

4、按照別名排序

5、多個列排序

二、每個MapReduce內部排序（Sort By）

三、分區排序（Distribute By）

四、 Cluster By—只能`升序`

總結：

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

703、scala單向循環列表解決-Josephu （雅瑟夫）問題

103、scala-鏈表之單向雙向

101、稀疏數組介紹

701、五子棋算法簡單實現

003、scala寫入讀取本地文件操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

八、排序介紹--四個by

一、全局排序（Order By）

1、使用 ORDER BY 子句排序

2、ORDER BY 子句在SELECT語句的結尾

3、案例實操

4、 按照別名排序

5、多個列排序

二、 每個MapReduce內部排序（Sort By）

三、 分區排序（Distribute By）

四、 Cluster By—只能升序

總結：

4、按照別名排序

二、每個MapReduce內部排序（Sort By）

三、分區排序（Distribute By）

四、 Cluster By—只能`升序`