1.DSL模式
通过调用方法来是实现。
如:
dataFrame.select("name").show
dataFrame.filter($"age">25).show
2.SQL模式
通过执行SQL。
1)先创建一张表:
一个sparkContext可以多次创建sparkSession。
//Session内可访问,一个sparkSession结束后,表自动删除。
dataFrame.createOrReplaceTempView 使用表名,不需要任何前缀。
//应用级别内可访问,一个sparkContext结束后,表自动删除。
dataFrame.createGlobalTempView 使用表明,需要加上 “global_temp”前缀,比如global_temp.people。
2)执行SQL:
spark.sql(“select * from people”).show
spark.sql("select * from global_temp.p1").show