spark（四）：RDD介绍

原創

2021-12-25 21:31

说明

本博客每周五更新一次。 RDD 是spark计算引擎重要的数据结构，使用RDD开发业务，必须深入学习使用它。

什么是RDD

RDD（Resilient Distributed Dataset）弹性分布式数据集，spark中最重要数据结构概念，代表一个不可变、可分区、可并行计算的集合，逻辑上是一个数据集，物理上可以分块分布在不同的机器上并发运行。
RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性，能分布在集群的节点上，以函数式操作集合的方式，进行各种并行计算。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。
RDD内置大量函数，可以大大提升开发效率，快速完成功能开发。

RDD生命周期

spark程序中，首先创建或读取RDD，然后对数据进行一系列一次或多次变换操作（Transform），并对保存中间结果（Cache），最后对结果进行处理（Action）。

创建RDD

RDD的创建可以通过对内存中的数据并行化计算结果，或直接读取分布式数据库（S3, HDFS, Cassandra 等等）创建，也可以直接读取本地文件创建。

RDD变换

RDD变换操作支持数据变换接口，常见如filter, map等等，执行到变换代码是，RDD数据并不立即发生实际变化（Lazily transform），而是保存数据的依赖关系，直到最终RDD进行动作（Action）时。RDD系统从全局角度来优化Transform的运行过程，节省计算时间。

RDD缓存

缓存（cache）操作将数据的中间结果保存在内存中，以便反复使用。

RDD结果处理

RDD结果处理（action）操作将数据的运算结果进行统计和返回。常见如count 和 collect。

RDD特性

RDD默认有如下重要特性。

如何分块（Partition）
与父RDD依赖关系（Dependency）
从父RDD求子RDD的函数（Function）
当前RDD存储位置（Preferred Localtion）
存储RDD分块类（Partitioner）

RDD限制

没有任何内置优化引擎
不能处理结构化数据

RDD函数

RDD的创建有两种常用方式：

sc.parallelize(）
sc.makeRDD()

总结

RDD是Spark数据集合的一种，还有DataFrame、DataSet等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Apache DolphinScheduler 3.1.9 版本发布：提升系统的稳定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

GeminiDB Cassandra接口新特性FLASHBACK发布：任意时间点秒级闪回

本文分享自華爲雲社區《GeminiDB Cassandra接口新特性FLASHBACK發佈：任意時間點秒級閃回》，作者： GaussDB 數據庫。技術背景數據庫作爲現代信息系統的核心組成部分，承擔着存儲、管理和檢索大量數據的

2024-04-01 10:32:29

守护更多女性健康，华为云GeminiDB助力美柚数据库高效稳定迁移

本文分享自華爲雲社區《守護更多女性健康，華爲雲GeminiDB助力美柚完成數據庫高效穩定遷移》，作者：華爲雲頭條。陽春三月，“三八”國際婦女節悄然而至。在社會快速發展的今天，女性力量在各個領域大放異彩，儘管女性成長路上可能會風雨兼顧，但是

2024-03-08 23:26:28

Impala数据文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

HBase Meta 元信息表修复实践

作者：vivo 互聯網大數據團隊 - Huang Guihu、Chen Shengzun HBase是一款開源高可靠、高可擴展性、高性能的分佈式非關係型數據庫，廣泛應用於大數據處理、實時計算、數據存儲和檢索等領域。在分佈式集羣中，硬件故

2024-05-09 12:43:33

爱奇艺数据湖实战 - 实时湖仓一体化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

从零开始学架构V2-初识架构设计-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

用DolphinScheduler轻松实现Flume数据采集任务自动化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

告别手动调度，海豚调度器 3.1.x 集群部署让你轻松管理多机！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

Hive引擎底层初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密数仓的SQL ON ANYWHERE技术

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

hive分区和分桶你熟悉吗？

兩種用於優化查詢性能的數據組織策略，數倉設計的關鍵概念，可提升Hive在讀取大量數據時的性能。 1 分區（Partitioning）根據表的某列的值來組織數據。每個分區對應一個特定值，並映射到HDFS的不同目錄。常用於經常查詢的列，如日

2024-03-11 02:23:15

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

24小時熱門文章

最新文章

最新評論文章