1、dataset官方定义:
A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.
Each Dataset also has an untyped view called a DataFrame, which is a Dataset of Row.
翻译:
Dataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。
每个Dataset都有一个称为DataFrame的非类型化的视图,这个视图是行的数据集
2、RDD也是可以并行化的操作,DataSet和RDD主要的区别是:DataSet是特定域的对象集合;然而RDD是任何对象的集合。DataSet的API总是强类型的;而且可以利用这些模式进行优化,然而RDD却不行。
3、 datafrmae -> dataSet : df.as(String)
dataset -> dataframe :dst.toDF()
- 创建一个ds
val data = spark.read.text("dataSet/userSet.txt").as[String]
val personDS = Seq(("Max", 33), ("Adam", 32), ("Muller", 62)).toDS
personDS.show
withNames = personDS.toDF("name", "age").as[(String, Int)]
withNames.show
阅读的相关博客: