datasSet學習

1、dataset官方定義:

A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.

Each Dataset also has an untyped view called a DataFrame, which is a Dataset of Row.

翻譯:

Dataset是特定域對象中的強類型集合,它可以使用函數或者相關操作並行地進行轉換等操作。

每個Dataset都有一個稱爲DataFrame的非類型化的視圖,這個視圖是行的數據集

 

2、RDD也是可以並行化的操作,DataSet和RDD主要的區別是:DataSet是特定域的對象集合;然而RDD是任何對象的集合。DataSet的API總是強類型的;而且可以利用這些模式進行優化,然而RDD卻不行。

 

3、 datafrmae -> dataSet : df.as(String)

dataset -> dataframe :dst.toDF()

  • 創建一個ds
 val data = spark.read.text("dataSet/userSet.txt").as[String]
val personDS = Seq(("Max", 33), ("Adam", 32), ("Muller", 62)).toDS
personDS.show
withNames = personDS.toDF("name", "age").as[(String, Int)]
withNames.show

閱讀的相關博客:

關於DataSet和DataFrame

RDD、DataFrame和DataSet的區別

我們爲什麼選擇parquet

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章