初識大數據(十二)-----Spark SQL基本操作

1、Parquet是什麼?

1)Parquet是列式存儲格式,是大數據時代文件存儲格式的首選標準.
2)Parquet是Spark默認的存儲格式

2、Spark SQL操作Parquet

1)加載數據

sparkSession.read.parquet("/nginx/42325.parquet")

2)寫入數據

df.write.mode(Savemode.Overwrite).parquet(“/path/to”)

3、查詢和過濾

1)show()
在這裏插入圖片描述
2、collect()
獲取所有數據到數組,返回Array對象
collectAsList()
獲取所有數據到list,返回list對象

4、查詢指定的字段

select()
在這裏插入圖片描述

5、查詢若干行數據

在這裏插入圖片描述

6、條件查詢where/filter

在這裏插入圖片描述

7.運算符

在這裏插入圖片描述

8、多條件查詢

在這裏插入圖片描述

9、聚合操作

groupby和agg
按照省份分組統計人數

df.groupBy(col(“province”).count.show
)

在這裏插入圖片描述
使用DataSet對象操作

ds.groupBy($ "city", $ "op_phone").count.withColumnRenamed("count","num")
.sort($"num".desc)
.show

10、分組後的聚合操作

在這裏插入圖片描述
欲瞭解更多相關知識,請關注公衆後:架構師Plus.
公衆號裏有彩蛋哦,有一個去視頻水印的工具,很好用哦.
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章