1、Parquet是什么?
1)Parquet是列式存储格式,是大数据时代文件存储格式的首选标准.
2)Parquet是Spark默认的存储格式
2、Spark SQL操作Parquet
1)加载数据
sparkSession.read.parquet("/nginx/42325.parquet")
2)写入数据
df.write.mode(Savemode.Overwrite).parquet(“/path/to”)
3、查询和过滤
1)show()
2、collect()
获取所有数据到数组,返回Array对象
collectAsList()
获取所有数据到list,返回list对象
4、查询指定的字段
select()
5、查询若干行数据
6、条件查询where/filter
7.运算符
8、多条件查询
9、聚合操作
groupby和agg
按照省份分组统计人数
df.groupBy(col(“province”).count.show
)
使用DataSet对象操作
ds.groupBy($ "city", $ "op_phone").count.withColumnRenamed("count","num")
.sort($"num".desc)
.show
10、分组后的聚合操作
欲了解更多相关知识,请关注公众后:架构师Plus.
公众号里有彩蛋哦,有一个去视频水印的工具,很好用哦.