學習筆記（3):大數據之Hive-連接查詢

原創

2020-07-05 17:46

立即學習:https://edu.csdn.net/course/play/8005/164135?utm_source=blogtoedu

建表

create table customers(id int,name string,age int);
insert into customers(id,name,age) values(1,'gxf',23);
create table orders(id int,cid int,orderno int,price float);
insert into orders(id,cid,orderno,price) values(1,1,1,1.2);
insert into orders(id,cid,orderno,price) values(1,1,2,3.2);

左半連接

左半連接left semi-join, select 和 where 子句不能引用到右邊表字段。

左表的記錄在右表中一旦找到對應的記錄，右側表立即停止，效率比內連接效率高

hive不支持右半連接操作

select c.id,c.name from customers c left semi join orders o on c.id = o.cid

笛卡爾鏈接m*n

select c.id,c.name from customers c join orders o;

map端連接

map端連接，通過mapper的手段，將一張小表完全載入內存中。

Hive中的 Map Join 即map side join

工作原理是在Map端把小表加載到內存中，然後讀取大表，和內存中的小表完成連接操作。MapJoin使用了分佈式緩存技術。

Map Join的優點：

不消耗集羣的reduce資源。
減少了reduce操作，加快了程序執行。
降低網絡負載。

Map Join的缺點：

佔用內存(所以加載到內存中的表不能過大，因爲每個計算節點都會加載一次)。
生成較多的小文件。

select /*+mapjoin(c)*/ c.id,c.name,o.orderno from customers c join orders o;
select /*+mapjoin(o)*/ c.id,c.name,o.orderno from customers c join orders o;

set hive.mapjoin.smalltable.filesize=25000000; --設置小表閥值

注意： set 命令只對當前會話有用，要持久化需要修改 hive-site.xml

union all 聯合操作

select id, name from customers 
union all 
select id, orderno from orders;

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

學習筆記（3):大數據之Hive-連接查詢

建表

左半連接

笛卡爾鏈接m*n

map端連接

union all 聯合操作

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

ffmpeg 百度雲盤

求最大李雅普諾夫指數（Largest Lyapunov Exponents，LLE）的 Rosenstein 算法

學習筆記（2):大數據之Hive-基本查詢

敲黑板！數據分析師的基本素養

學習筆記（1):大數據之Hive-Hive安裝配置和簡單命令

學習筆記（1):大數據之Hive-Hive安裝配置和簡單命令

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結