Apache Hive—join操作

原創

2020-06-23 18:44

目錄

Hive join

Hive中除了支持和傳統數據庫中一樣的內關聯、左關聯、右關聯、全關聯，還支持LEFT SEMI JOIN和CROSS JOIN，但這兩種JOIN類型也可以用前面的代替。
Hive支持等值連接（a.id=b.id），不支持非等值（a.id>b.id）的連接，因爲非等值連接非常難轉化到map/reduce任務。另外，Hive支持多2個以上表之間的join。
寫join查詢時，需要注意幾個關鍵點：

join時，每次map/reduce任務的邏輯：
reducer會緩存join序列中除了最後一個表的所有表的記錄，再通過最後一個表將結果序列化到文件系統。這一實現有助於在reduce端減少內存的使用量。實踐中，應該把最大的那個表寫在最後（否則會因爲緩存浪費大量內存）。
LEFT，RIGHT和FULL OUTER關鍵字用於處理join中空記錄的情況
SELECT a.val,b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
對應所有a表中的記錄都有一條記錄輸出。輸出的結果應該是a.val，b.val，當a.key=b.key時，而當b.key中找不到等值的a.key記錄時也會輸出：
a.val, NULL
所以a表中的所有記錄都被保留了：
“a RIGHT OUTER JOIN b”會保留所有b表的記錄。
join發生在WHERE子句之前
如果你想限制join的輸出，應該在WHERE子句中寫過濾條件——或是在join子句中寫。這裏面一個容易混淆的問題是表分區的情況：
SELECT a.val,b.val FROM a
LEFT OUTER JOIN b ON(a.key=b.key)
WHERE a.ds=‘2009-07-07’ AND b.ds=‘2009-07-07’
這會joina表到b表（OUTER JOIN），列出a.val和b.val的記錄。

join實操和數據準備

inner join：內連接，只有a.id=b.id纔會顯示出來，不相等不會顯示出來

先創建A表、B表

通過命令vi a.txt準備數據a.txt

編輯後保存a.txt

通過命令vi b.txt準備數據b.txt

編輯後保存b.txt

導入數據

確認數據是否導入成功
select * from a;

確認數據是否導入成功
select * from b;

join實驗

inner join：內連接

inner join：內連接，只有a.id=b.id纔會顯示出來，不相等不會顯示出來

開發環境可以開啓本地模式，線上環境一定不要開啓本地模式。
set hive.exec.mode.local.auto=true;

left join：左關聯（左外關聯），以左表爲準。

左表所有字段顯示出來，右表做關聯。如果關聯上，相等則顯示出來；如果關聯不上，顯示爲null。

right join：右關聯（右外關聯），以右表爲準。

把右表所有字段顯示出來，左表做關聯。如果關聯上，相等則顯示出來；如果關聯不上，顯示爲null。

full outer join：全關聯（全外關聯）

hive中的特別join：semi join

corss join（##慎用）

返回兩個表的笛卡爾積結果，不需要指定關聯鍵。

select a.*,b.* from a cross join b;

執行結果：
左表100條記錄，右表100條記錄，100*100=10000條記錄。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗

本文分享自華爲雲社區《重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗！》，作者：GaussDB 數據庫。所謂，凡有井水處，即能歌柳詞。大數據時代，凡有數據處，必有數據庫。隨着業務需求的不斷擴大和數據量的激增，數

2024-04-23 22:32:33

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案

項目背景數字金融是數字經濟的重要支撐和驅動力。近年來，我國針對數字金融的發展政策頻頻出臺，《金融科技發展規劃（2022-2025年）》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十四五”

2024-04-19 21:18:25

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

京東內部研效架構師訓練營，首次對外公開課，不可錯過的研效之旅！

五月繁花似錦，讓我們帶你走進京東，開啓研效實戰之旅！四大單位聯合發起本次活動由“全國雲計算技術行業產教融合共同體”發起，聯合工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會、京東雲共同主辦，重磅推出“卓越研效架構師”

京東雲開發者

2024-04-19 11:16:30

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

GaussDB(DWS)基於Flink的實時數倉構建

本文分享自華爲雲社區《GaussDB(DWS)基於Flink的實時數倉構建》，作者：胡辣湯。大數據時代，廠商對實時數據分析的訴求越來越強烈，數據分析時效從T+1時效趨向於T+0時效，爲了給客戶提供極速分析查詢能力，華爲雲數倉GaussDB

2024-04-18 10:32:57

這篇 DolphinScheduler on k8s 雲原生部署實踐，值得所有大數據人看！

在當前快速發展的技術格局中，企業尋求創新解決方案來簡化運營並提高效率成爲一種趨勢。 Apache DolphinScheduler作爲一個強大的工具，允許跨分佈式系統進行復雜的工作流任務調度。本文將深入探討如何將Apache Dolphin

2024-04-17 21:18:15

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

24小時熱門文章

最新文章

最新評論文章