初识大数据(十二)-----Spark SQL基本操作

1、Parquet是什么?

1)Parquet是列式存储格式,是大数据时代文件存储格式的首选标准.
2)Parquet是Spark默认的存储格式

2、Spark SQL操作Parquet

1)加载数据

sparkSession.read.parquet("/nginx/42325.parquet")

2)写入数据

df.write.mode(Savemode.Overwrite).parquet(“/path/to”)

3、查询和过滤

1)show()
在这里插入图片描述
2、collect()
获取所有数据到数组,返回Array对象
collectAsList()
获取所有数据到list,返回list对象

4、查询指定的字段

select()
在这里插入图片描述

5、查询若干行数据

在这里插入图片描述

6、条件查询where/filter

在这里插入图片描述

7.运算符

在这里插入图片描述

8、多条件查询

在这里插入图片描述

9、聚合操作

groupby和agg
按照省份分组统计人数

df.groupBy(col(“province”).count.show
)

在这里插入图片描述
使用DataSet对象操作

ds.groupBy($ "city", $ "op_phone").count.withColumnRenamed("count","num")
.sort($"num".desc)
.show

10、分组后的聚合操作

在这里插入图片描述
欲了解更多相关知识,请关注公众后:架构师Plus.
公众号里有彩蛋哦,有一个去视频水印的工具,很好用哦.
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章