datasSet学习

1、dataset官方定义:

A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.

Each Dataset also has an untyped view called a DataFrame, which is a Dataset of Row.

翻译:

Dataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。

每个Dataset都有一个称为DataFrame的非类型化的视图,这个视图是行的数据集

 

2、RDD也是可以并行化的操作,DataSet和RDD主要的区别是:DataSet是特定域的对象集合;然而RDD是任何对象的集合。DataSet的API总是强类型的;而且可以利用这些模式进行优化,然而RDD却不行。

 

3、 datafrmae -> dataSet : df.as(String)

dataset -> dataframe :dst.toDF()

  • 创建一个ds
 val data = spark.read.text("dataSet/userSet.txt").as[String]
val personDS = Seq(("Max", 33), ("Adam", 32), ("Muller", 62)).toDS
personDS.show
withNames = personDS.toDF("name", "age").as[(String, Int)]
withNames.show

阅读的相关博客:

关于DataSet和DataFrame

RDD、DataFrame和DataSet的区别

我们为什么选择parquet

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章