SparkSQL中 RDD、DataFrame、DataSet三者的区别与联系

原創

2020-05-31 15:14

RDD

RDD：弹性分布式数据集；不可变、可分区、元素可以并行计算的集合。
优点：
RDD编译时类型安全：编译时能检查出类型错误；
面向对象的编程风格：直接通过类名点的方式操作数据。
缺点：
序列化和反序列化的性能开销很大，大量的网络传输；
构建对象占用了大量的heap堆内存，导致频繁的GC（程序进行GC时，所有任务都是暂停）

DataFrame

DataFrame以RDD为基础的分布式数据集。
优点：
DataFrame带有元数据schema，每一列都带有名称和类型。
DataFrame引入了off-heap，构建对象直接使用操作系统的内存，不会导致频繁GC。
DataFrame可以从很多数据源构建；
DataFrame把内部元素看成Row对象，表示一行行的数据。
DataFrame=RDD+schema
缺点：
编译时类型不安全；
不具有面向对象编程的风格。

Dataset

DataSet包含了DataFrame的功能，Spark2.0中两者统一，DataFrame表示为DataSet[Row]，即DataSet的子集。
（1）DataSet可以在编译时检查类型；
（2）并且是面向对象的编程接口。
（DataSet 结合了 RDD 和 DataFrame 的优点，并带来的一个新的概念 Encoder。当序列化数据时，Encoder 产生字节码与 off-heap 进行交互，能够达到按需访问数据的效果，而不用反序列化整个对象。）。
三者之间的转换：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark on YARN的cluster模式

目錄 YARN架構 Spark on YARN的cluster模式常用命令日誌查看與處理參考資料 YARN架構 YARN是Hadoop2.0之後出現的集羣資源的管理與任務調度的分佈式框架。資源管理：集羣中的資源（如內存、c

2020-07-05 23:46:23

Spark资源参数调优

目錄資源參數參考資料資源參數 1）num-executors 參數說明：該參數用於設置Spark作業總共要用多少個Executor進程來執行。Driver在向YARN集羣管理器申請資源時，YARN集羣管理器會盡可能按照你的設置來

2020-07-05 23:46:22

Spark应用中断监控

前言本文主要是圍繞spark on yarn cluster模式運行spark應用。在實際應用中，會碰到這種情況，應用被中斷、應用未中斷但是不執行計算、應用中某些任務失敗等。我們將應用部署後，不可能時時都關注，當應用被中斷時，怎麼能儘快

2020-07-05 23:46:22

还不知道SparkSQL中left semi join操作与left join操作的区别？进来一看便知！

leftJoin類似於SQL中的左外關聯left outer join，返回結果以第一個RDD爲主，關聯不上的記錄爲空。部分場景下可以使用left semi join替代left join：因爲 left semi join

2020-07-03 17:26:56

Spark的运行模式讲解

文章目錄一、背景二、yarn-client模式1.yarn-client運行流程圖2.yarn-client的工作流程三、yarn-cluster模式1.yarn-cluster運行流程圖2.yarn-cluster的工作流程四、

2020-06-19 02:09:36

SparkStreaming 介绍

一 Spark Streaming引入新的場景需求 ●集羣監控一般的大型集羣和平臺, 都需要對其進行監控的需求。要針對各種數據庫, 包括 MySQL, HBase 等進行監控要針對應用進行監控, 例如 Tomcat, Ngin

神说要有光，于是就有了我

2020-06-17 12:46:14

Spark 集成 Hive

Hive查詢流程及原理執行HQL時，先到MySQL元數據庫中查找描述信息，然後解析HQL並根據描述信息生成MR任務 Hive將SQL轉成MapReduce執行速度慢使用SparkSQL整合Hive其實就是讓SparkSQL去加

神说要有光，于是就有了我

2020-06-17 12:46:14

Spark源码剖析——RpcEndpoint、RpcEnv

文章目錄Spark源碼剖析——RpcEndpoint、RpcEnv當前環境與版本1. 前言2. RpcEndpoint2.1 核心UML圖2.2 RpcEndpoint源碼分析3. RpcEndpointRef3.1 RpcEnd

2020-06-17 08:08:40

Spark源码剖析——SparkContext实例化

文章目錄Spark源碼剖析——SparkContext實例化當前環境與版本前言SparkContext實例化的主要邏輯LiveListenerBus的作用createSparkEnv的過程創建不同的SchedulerBackend

2020-06-17 07:27:52

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

03-SparkSQL入门

0 Shark Spark 的一個組件，用於大規模數據分析的 SQL 查詢引擎。Shark 提供了一種基於 SQL 的交互式查詢方式，可以讓用戶輕鬆地對大規模數據集進行查詢和分析。Shark 基於 Hive 項目，使用 Hive 的元數據存

2024-03-24 02:48:20

Spark SQL（五）—— Spark SQL数据源

文章目錄1. 使用load（加載函數）、save（存儲函數）2. Parquet文件2.1 把其他文件轉換成Parquet文件2.2 支持Schema合併3. JSON文件4. JDBC4.1 方式一：read.format("j

2020-07-03 19:00:42

spark sql 自定义udf函数

import org.apache.spark.sql.functions._ def compare(value_missing: String, value: String): Boolean = { var fla

2020-07-02 03:31:34

Spark sql :load和save操做--spark学习笔记之一

一、load和save基礎操作對於spark SQL的DataFrame來說，無論是從什麼數據源創建出來的DataFrame，都有一些共同的load和save操作。 load操作主要用於加載數據，創建出DataFrame； save操作

2020-06-30 21:30:05

Spark：对于提交命令的理解

如何使用spark-submit將打包好的jar提交到Spark上運行？打開終端，在終端中輸入spark-submit --help, 可以查看spark-submit的詳細幫助。下面說一下 spark-submit 的詳細幫助。

花和尚也有春天

2020-06-28 07:08:48

24小時熱門文章

最新文章

最新評論文章