Spark RDD 轉化操作與行動操作

原創

2019-09-25 16:45

本文摘自《Spark 快速大數據分析》

概述

RDD 支持兩種操作：轉化操作（Transformation）和行動操作（Action）。
轉化操作時返回一個新的 RDD 的操作，比如 map() 和 filter()。
行動操作則是向驅動器程序返回結果或把結果寫入外部系統的操作，會觸發實際的計算，比如 count() 和first()。
Spark 對待轉化操作和行動操作的方式很不一樣，因此理解你正在進行的操作很重要的。
如果對於一個特定的函數是屬於轉化操作還是行動操作感到困惑，你可以看看它的返回值類型：轉化操作返回的是 RDD，而行動操作返回的是其他的數據類型。

RDD 轉化操作

表 3-2：對一個數據爲 {1, 2, 3, 3} 的 RDD 進行基本的 RDD 轉化操作

函數名	目的	示例	結果
map()	將函數應用於 RDD 中的每個元素，將返回值構成新的 RDD	rdd.map(x -> x+1)	{2, 3, 4, 4}
flatMap()	將函數應用於 RDD 中的每個元素，將返回的迭代器的所有內容構成新的 RDD。通常用來切分單詞	rdd.flatMap(x -> x.to(3))	{1, 2, 3, 2, 3, 3, 3}
filter()	返回一個由通過傳給 filter() 的函數的元素組成的 RDD	rdd.filter(x -> x != 1)	{2, 3, 3}
distinct()	去重	rdd.distinct()	{1, 2, 3}
sample(withReplacement, fraction, [seed])	對 RDD 採樣，以及是否替換	rdd.sample(false, 0.5)	非確定的

表 3-3：對數據分別爲 {1, 2, 3} 和 {3, 4, 5} 的 RDD 進行鍼對兩個 RDD 的轉化操作

函數名	目的	示例	結果
union()	生成一個包含兩個 RDD 中所有元素的 RDD rdd.union(other)	{1, 2, 3, 3, 4, 5}
intersection()	求兩個 RDD 共同的元素的 RDD	rdd.intersection(other)	{3}
subtract()	移除另一個 RDD 中的元素	rdd.subtract(other)	{1, 2}
cartesian()	於另一個 RDD 的笛卡爾積	rdd.cartesian(other)	{(1, 3), (1, 4), (1, 5), (2, 3), (2, 4), (2, 5), (3, 3), (3, 4), (3, 5)}

RDD 行動操作

表 3-4：對一個數據爲 {1, 2, 3, 3} 的 RDD 進行基本的 RDD 行動操作

函數名	目的	示例	結果
collect()	返回 RDD 中的所有元素	rdd.collect()	{1, 2, 3, 3}
count()	RDD 中的元素個數	rdd.count()	4
countByValue()	各元素再 RDD 中出現的次數	rdd.countByValue()	{(1, 1), (2, 1), (3, 2)}
take(num)	從 RDD 中返回 num 個元素	rdd.take(2)	{1, 2}
top(num)	從 RDD 中返回最前面的 num 個元素	rdd.top(2)	{3, 3}
takeOrdered(num)(ordering)	從 RDD 中按照提供的順序返回最前面的 num 個元素	rdd.takeOrdered(2)(myOrdering)	{3, 3}
takeSample(withReplacement, num, [seed])	從 RDD 中返回任意一些元素	rdd.takeSample(false, 1)	非確定的
reduce(func)	並行整合 RDD 中的數據（例如 sum）	rdd.reduce((x, y) -> x + y)	9
fold(zeor)(func)	和 reduce() 一樣，但是需要提供初始值	rdd.fold(0)((x, y) -> x + y)	9
aggregate(zeroValue)(seqOp, combOp)	和 reduce() 相似，但是通常返回不同類型的函數	rdd.aggergate((0, 0))((x, y) -> (x._1 + y, x._2 + 1), (x, y) -> (x._1 + y._1, x._2 + y._2))	(9, 4)
foreach(func)	對 RDD 中的每個元素使用給定的函數	rdd.foreach(func)	無

Pair RDD 轉化操作

表 4-1：Pair RDD 的轉化操作，以鍵值對{(1, 2), (3, 4), (3, 6)} 爲例

函數名	目的	示例	結果
reduceByKey(func)	合併具有相同鍵的值	rdd.reduceByKey((x, y) -> x + y)	{(1, 2), (3, 10)}
groupByKey()	對具有相同鍵的值進行分組	rdd.groupByKey()	{(1, [2]), (3, [4, 6])}
combineByKey(createCombiner, mergeValue, mergeCombiners, partitioner)	使用不同返回類型合併具有相同鍵的值	見例4-12 到例 4-14
mapValues(func)	對 pair RDD 中的每個值應用一個函數而不改變鍵	rdd.mapValues(x -> x + 1)	{(1, 3), (3, 5), (3, 7)}
flatMapValues(func)	對 pair RDD 中的每個值應用一個返回迭代器的函數，然後對返回的每個元素都生成一個對應原鍵值對記錄。通常用於符號化	rdd.flatMapValues(x -> (x to 5))	{(1, 2), (1, 3), (1, 4), (1, 5), (3, 4), (3, 5)}
keys()	返回一個僅包含鍵的 RDD	rdd.keys()	{1, 3, 3}
values()	返回一個僅包含值的 RDD	rdd.values()	{2, 4, 6}
sortByKey()	返回一個根據鍵排序的 RDD	rdd.sortByKey()	{(1, 2), (3, 4), (3, 6)}

表 4-2：針對兩個 Pair RDD 的轉化操作，rdd = {(1, 2), (3, 4), (3, 6)} other = {(3, 9)}

函數名	目的	示例	結果
subtractByKey	刪掉 RDD 中鍵與 other RDD 中的鍵相同的元素	rdd.substractByKey(other)	{(1, 2)}
join	對兩個 RDD 進行內連接	rdd.join(other)	{(3, (4, 9)), (3, (6, 9))}
rightOuterJoin	對兩個 RDD 進行連接操作，確保第一個 RDD 的鍵必須存在（右外連接）	rdd.rightOuterJoin(other)	{(3, (Some(4), 9)), (3, (Some(6), 9))}
leftOuterJoin	對兩個 RDD 進行連接操作，確保第二個 RDD 的鍵必須存在（左外連接）	rdd.leftOuterJoin(other)	{(1, (2, None)), (3, (4, Some(9))), (3, (6, Some(9)))}
cogroup	將兩個RDD 中擁有相同鍵的數據分組到一起	rdd.cogroup(other)	{(1, ([2], [])), (3, ([4, 6], [9]))}

Pair RDD 行動操作

表 4-3：Pair RDD 的行動操作，以鍵值對集合 {(1, 2), (3, 4), (3, 6)} 爲例

函數名	目的	示例	結果
countByKey()	對每個鍵對應的元素分別計數	rdd.countByKey()	{(1, 1), (3, 2)}
collectAsMap()	將結果以映射表的形式返回，以便查詢	rdd.collectAsMap()	Map{(1, 2), (3, 6)}
lookup(key)	返回給定鍵對應的所有值	rdd.lookup(3)	[4, 6]

本文出自 walker snapshot

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

從缺陷到創新：質量保障的新視角

1.背景：最近一段時間研發大佬們在積極的治理告警，經過一段時間的治理，現在告警情況已經有了很大的改觀，但難免還有漏網之魚；具體我們可以以下邊一個例子來看：這是一個生產的UMP告警，通過這個告警我們發現XXX這個應用的堆內存使用率

2024-06-07 23:55:01

CI+GPT雙引擎驅動，開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一

京東雲開發者

2024-06-07 23:54:54

Java開發必讀，談談對Spring IOC與AOP的理解

本文分享自華爲雲社區《超詳細的Java後臺開發面試題之Spring IOC與AOP》，作者：GaussDB 數據庫。一、前言 IOC和AOP是Spring中的兩個核心的概念，下面談談對這兩個概念的理解。二、IOC（Inverse o

2024-06-07 22:57:21

Junit4遇上chatGPT

這是一篇適合Java工程師體質的AI開發教程。本教程會教你寫一個簡單的junit4的Rule，該Rule在基於junit4的測試方法失敗後，自動向GPT發送錯誤信息並通過GPT分析得出代碼修改建議。首先向AI問好簡單的通過AI，讓它

2024-06-06 23:55:13

一文搞懂 Spring 循環依賴

這個其實是一個特別高頻的面試題，松哥也一直很想和大家仔細來聊一聊這個話題，網上關於這塊的文章很多，但是我一直覺得要把這個問題講清楚還有點難度，今天我來試一試，看能不能和小夥伴們把這個問題梳理清楚，當然，如果小夥伴們覺得看文章不過癮，松哥也有

2024-06-06 13:11:47

營銷系統黑名單優化：位圖的應用解析

背景營銷系統中，客戶投訴是業務發展的一大阻礙，一般會過濾掉黑名單高風險賬號，並配合頻控策略，來減少客訴，進而增加營銷效率，減少營銷成本，提升營銷質量。營銷系統一般是通過大數據分析建模，在CDP（客戶數據平臺，以客戶爲核心，圍繞數據融

京東雲開發者

2024-06-06 11:54:12

基於阿里雲服務網格流量泳道的全鏈路流量管理（三）：無侵入式的寬鬆模式泳道

作者：尹航在前文《基於阿里雲服務網格流量泳道的全鏈路流量管理（一）：嚴格模式流量泳道》、《基於阿里雲服務網格流量泳道的全鏈路流量管理（二）：寬鬆模式流量泳道》中，我們介紹了流量泳道的概念、使用流量泳道進行全鏈路灰度管理的方案，以及阿里雲服

2024-06-05 21:13:51

iLogtail 2.0 重大升級，端上支持 SPL

作者：太業流式處理語言發展早期流式處理概念： 20 世紀 70 年代，編程語言如 APL 提供了對數組的流式操作，這可以看作是流式處理語法的早期形式。管道（Pipes）概念在 UNIX 系統中的引進使得可以通過命令行將一個命令的

2024-06-05 21:13:43

一文搞懂5種內存溢出案例，內含完整源碼

本文分享自華爲雲社區《10分鐘搞懂各種內存溢出案例！！（含完整源碼，建議收藏）》，作者：冰河。作爲程序員，多多少少都會遇到一些內存溢出的場景，如果你還沒遇到，說明你工作的年限可能比較短，或者你根本就是個假程序員！哈哈，開個玩笑。今天，我

2024-06-05 10:56:55

高效啓動DolphinScheduler工作流：Java URL調用詳解

轉載自牛肉胡辣湯在大數據分析和處理的領域中，DolphinScheduler是一個開源的分佈式工作流調度系統，可以用於調度和管理複雜的工作流任務。本文將介紹如何使用Java中的URL類來調用DolphinScheduler的API，實現啓

2024-06-04 21:21:59

記一次疑似JVM內存泄漏的排查過程

一、背景在日常部門OpsReview過程中，部門內多次遇到應用容器所在的宿主機磁盤繁忙導致的接口響應緩慢，TP99增高等影響服務性能的問題，其中比較有效的解決方案是開啓日誌的異步打印，可以有效避免同步日誌打印在磁盤IO高起的情況下拖慢業

2024-06-04 12:09:32

?* CI+GPT雙引擎驅動，?* 開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一個耗時

2024-06-04 12:09:24

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:39:24

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:37:09

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:34:44

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章