1. cluster by 是什麼?
如果想徹底瞭解:HIVE中,order by、sort by、 distribute by和 cluster by的區別,請查看HIVE中,order by、sort by、 distribute by和 cluster by的區別。網址:https://blog.csdn.net/weixin_42845682/article/details/104953351
2. cluster by有什麼意義?
你應該已經知道了:當distribute by 和 sort by 所指定的字段相同時,即可以使用cluster by。但是,有人禁不住就要問:那cluster by有什麼存在意義嗎?按照XX字段分區又按照XX字段排序。
答案是:當分區數量小於字段種類時,就有意義。
舉個例子:
有一張學生表,全校共有100個專業,但是因爲性能問題,分區只能指定5個。這時候,按照專業分區,再按照專業排序就有存在的意義了。