1、Parquet是什麼?
1)Parquet是列式存儲格式,是大數據時代文件存儲格式的首選標準.
2)Parquet是Spark默認的存儲格式
2、Spark SQL操作Parquet
1)加載數據
sparkSession.read.parquet("/nginx/42325.parquet")
2)寫入數據
df.write.mode(Savemode.Overwrite).parquet(“/path/to”)
3、查詢和過濾
1)show()
2、collect()
獲取所有數據到數組,返回Array對象
collectAsList()
獲取所有數據到list,返回list對象
4、查詢指定的字段
select()
5、查詢若干行數據
6、條件查詢where/filter
7.運算符
8、多條件查詢
9、聚合操作
groupby和agg
按照省份分組統計人數
df.groupBy(col(“province”).count.show
)
使用DataSet對象操作
ds.groupBy($ "city", $ "op_phone").count.withColumnRenamed("count","num")
.sort($"num".desc)
.show
10、分組後的聚合操作
欲瞭解更多相關知識,請關注公衆後:架構師Plus.
公衆號裏有彩蛋哦,有一個去視頻水印的工具,很好用哦.