Spark中,DataFrame的操作實例及展示

1、啓動進程

啓動:hdfs和spark,會看到如下圖所示的進程

(1)主節點如圖所示:

在這裏插入圖片描述

(2)從節點如圖所示:

在這裏插入圖片描述

2、Spark集羣的啓動

瀏覽器輸入 http://10.103.104.101:8080/
在這裏插入圖片描述
(2)spark-shell啓動
在這裏插入圖片描述

3、DataFrame的操作

(1) 讀取數據

val inputpath="hdfs://master:9000/input"

在這裏插入圖片描述

var df=spark.read.format("CSV").option("header","true").load(inputpath)

在這裏插入圖片描述

(2)打印元數據

df.printSchema()

在這裏插入圖片描述

(3)顯示數據,默認20行

df.show()#加入參數100,顯示100行。

在這裏插入圖片描述

(4)統計數據行數

df.count()

在這裏插入圖片描述

(5)選取部分列

df.select()

在這裏插入圖片描述

(6)分組統計

df.groupBy("station_code").count().show()

在這裏插入圖片描述

(7)過濾操作

df.filter($"station_code" < "1750A")

在這裏插入圖片描述

(8)查看不同的aqi(對aqi進行去重)

在這裏插入圖片描述

(9)按列排序

df.orderBy(df("station_code").desc).show()#desc降序,asc升序

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章