1.在本地創建一個文件,有id、name、age三列,用空格分隔,然後上傳到hdfs上.
vim /root/person.txt
1 zhangsan 20
2 lisi 29
3 wangwu 25
4 zhaoliu 30
5 tianqi 35
6 kobe 40
上傳數據文件到HDFS上:
hadoop fs -put /root/person.txt /
2.打開spark-shell
/export/servers/spark/bin/spark-shell
創建RDD:
3.定義case class
4.將RDD和case class關聯
5.將RDD轉換成DataFrame
6.查看數據和schema
7.註冊表
8.執行SQL
9.也可以通過SparkSession構建DataFrame