1、啓動進程
啓動:hdfs和spark,會看到如下圖所示的進程
(1)主節點如圖所示:
(2)從節點如圖所示:
2、Spark集羣的啓動
瀏覽器輸入 http://10.103.104.101:8080/
(2)spark-shell啓動
3、DataFrame的操作
(1) 讀取數據
val inputpath="hdfs://master:9000/input"
var df=spark.read.format("CSV").option("header","true").load(inputpath)
(2)打印元數據
df.printSchema()
(3)顯示數據,默認20行
df.show()#加入參數100,顯示100行。
(4)統計數據行數
df.count()
(5)選取部分列
df.select()
(6)分組統計
df.groupBy("station_code").count().show()
(7)過濾操作
df.filter($"station_code" < "1750A")
(8)查看不同的aqi(對aqi進行去重)
(9)按列排序
df.orderBy(df("station_code").desc).show()#desc降序,asc升序