快速瞭解Spark語法中 join、leftOuterJoin、rightOuterJoin及fullOuterJoin 的用法以及各自的區別

原創

2020-06-21 04:04

Spark的join與mysql的join類似，mysql的join是將表與表之間連接查詢，spark中join是將RDD數據集進行連接，Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin這4種連接

join：相當於mysql的INNER JOIN，當join左右兩邊的數據集都存在時才返回

leftOuterJoin：相當於mysql的LEFT JOIN，leftOuterJoin返回數據集左邊的全部數據和數據集左邊與右邊有交集的數據

rightOuterJoin：相當於mysql的RIGHT JOIN，rightOuterJoin返回數據集右邊的全部數據和數據集右邊與左邊有交集的數據

fullOuterJoin：返回左右數據集的全部數據，左右有一邊不存在的數據以None填充

下面以代碼看個例子：

from pyspark import SparkConf, SparkContext

conf = SparkConf()
sc = SparkContext(conf=conf)


def func_join():
    a = sc.parallelize([("name", "Alice"), ("age", 20), ("job", "student"), ("fav", "basket")])
    b = sc.parallelize([("name", "Bob"), ("age", 22), ("address", "WuHan")])
    print("join:{}".format(a.join(b).collect()))
    print("leftOuterJoin:{}".format(a.leftOuterJoin(b).collect()))
    print("rightOuterJoin:{}".format(a.rightOuterJoin(b).collect()))
    print("fullOuterJoin:{}".format(a.fullOuterJoin(b).collect()))


func_join()
sc.stop()

"""
result：
join:[('name', ('Alice', 'Bob')), ('age', (20, 22))]                            
leftOuterJoin:[('fav', ('basket', None)), ('name', ('Alice', 'Bob')), ('job', ('student', None)), ('age', (20, 22))]
rightOuterJoin:[('name', ('Alice', 'Bob')), ('age', (20, 22)), ('address', (None, 'WuHan'))]
fullOuterJoin:[('fav', ('basket', None)), ('name', ('Alice', 'Bob')), ('job', ('student', None)), ('age', (20, 22)), ('address', (None, 'WuHan'))]
"""

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

快速瞭解Spark語法中 join、leftOuterJoin、rightOuterJoin及fullOuterJoin 的用法以及各自的區別

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

如何用Python快速開發一個企業微信羣機器人？

企業微信機器人功能配置說明

如何用gradle配置國內阿里雲鏡像源

從零開始快速入門google開源BERT模型

LINUX下各個信號以及對應解釋說明

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結