spark（四）：RDD介紹

原創

2021-12-25 21:31

說明

本博客每週五更新一次。 RDD 是spark計算引擎重要的數據結構，使用RDD開發業務，必須深入學習使用它。

什麼是RDD

RDD（Resilient Distributed Dataset）彈性分佈式數據集，spark中最重要數據結構概念，代表一個不可變、可分區、可並行計算的集合，邏輯上是一個數據集，物理上可以分塊分佈在不同的機器上併發運行。
RDD具有數據流模型的特點：自動容錯、位置感知性調度和可伸縮性，能分佈在集羣的節點上，以函數式操作集合的方式，進行各種並行計算。RDD允許用戶在執行多個查詢時顯式地將工作集緩存在內存中，後續的查詢能夠重用工作集，這極大地提升了查詢速度。
RDD內置大量函數，可以大大提升開發效率，快速完成功能開發。

RDD生命週期

spark程序中，首先創建或讀取RDD，然後對數據進行一系列一次或多次變換操作（Transform），並對保存中間結果（Cache），最後對結果進行處理（Action）。

創建RDD

RDD的創建可以通過對內存中的數據並行化計算結果，或直接讀取分佈式數據庫（S3, HDFS, Cassandra 等等）創建，也可以直接讀取本地文件創建。

RDD變換

RDD變換操作支持數據變換接口，常見如filter, map等等，執行到變換代碼是，RDD數據並不立即發生實際變化（Lazily transform），而是保存數據的依賴關係，直到最終RDD進行動作（Action）時。RDD系統從全局角度來優化Transform的運行過程，節省計算時間。

RDD緩存

緩存（cache）操作將數據的中間結果保存在內存中，以便反覆使用。

RDD結果處理

RDD結果處理（action）操作將數據的運算結果進行統計和返回。常見如count 和 collect。

RDD特性

RDD默認有如下重要特性。

如何分塊（Partition）
與父RDD依賴關係（Dependency）
從父RDD求子RDD的函數（Function）
當前RDD存儲位置（Preferred Localtion）
存儲RDD分塊類（Partitioner）

RDD限制

沒有任何內置優化引擎
不能處理結構化數據

RDD函數

RDD的創建有兩種常用方式：

sc.parallelize(）
sc.makeRDD()

總結

RDD是Spark數據集合的一種，還有DataFrame、DataSet等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Apache DolphinScheduler 3.1.9 版本發佈：提升系統的穩定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

Koordinator 助力雲原生應用性能提升：小紅書混部技術實踐

編者按： Koordinator 是一個開源項目，是基於阿里巴巴內部多年容器調度、混部實踐經驗孵化誕生，是行業首個生產可用、面向大規模場景的開源混部系統，致力於提升應用服務質量，優化資源使用效率。自 2022 年 4 月正式開源以來，吸

2023-12-06 01:15:02

雲原生場景下月省 10 萬元資源成本，這家企業做對了什麼

相信近期從事基礎設施工作的各位，對 IT 成本治理，以及 FinOps 體系的概念已經有了一些認知。在 Google 近 5 年的熱度趨勢中，FinOps 的趨勢也在持續上升。在阿里雲的同學與客戶實際工作協同中，我們發現成本治理是幾乎每位

2023-12-01 01:10:35

米哈遊大數據雲原生實踐

近年來，容器、微服務、Kubernetes 等各項雲原生技術的日漸成熟，越來越多的公司開始選擇擁抱雲原生，並開始將 AI、大數據等類型的企業應用部署運行在雲原生之上。以 Spark 爲例，在雲上運行 Spark 可以充分享有公共雲的彈性資源

2023-11-23 00:39:26

GeminiDB Cassandra接口新特性FLASHBACK發佈：任意時間點秒級閃回

本文分享自華爲雲社區《GeminiDB Cassandra接口新特性FLASHBACK發佈：任意時間點秒級閃回》，作者： GaussDB 數據庫。技術背景數據庫作爲現代信息系統的核心組成部分，承擔着存儲、管理和檢索大量數據的

2024-04-01 10:32:29

守護更多女性健康，華爲雲GeminiDB助力美柚數據庫高效穩定遷移

本文分享自華爲雲社區《守護更多女性健康，華爲雲GeminiDB助力美柚完成數據庫高效穩定遷移》，作者：華爲雲頭條。陽春三月，“三八”國際婦女節悄然而至。在社會快速發展的今天，女性力量在各個領域大放異彩，儘管女性成長路上可能會風雨兼顧，但是

2024-03-08 23:26:28

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

hive分區和分桶你熟悉嗎？

兩種用於優化查詢性能的數據組織策略，數倉設計的關鍵概念，可提升Hive在讀取大量數據時的性能。 1 分區（Partitioning）根據表的某列的值來組織數據。每個分區對應一個特定值，並映射到HDFS的不同目錄。常用於經常查詢的列，如日

2024-03-11 02:23:15

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

24小時熱門文章

最新文章

最新評論文章