參考:https://zhuanlan.zhihu.com/p/94375087
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html
處理結構化數據,編程入庫是sparksession
dataframe方式:創建dataframe結構後可以直接進行類pandas語句操作
sql方式:需要先註冊表之後在進行sql語句的操作
熟悉dataframe,spark sql基於rdd的一層高級封裝,本質也是一個rdd,所以具有轉換懶加載和動作,需要注意;與pandas,dataframe結構類似,語句方法很多都相似,可以快速學習
jupter notebook 傳csdn:
參考:https://blog.csdn.net/Amo_Rev/article/details/88406493
其他like,groupby、排序、select等操作可以點擊查看
https://nbviewer.jupyter.org/github/lonngxiang/spark_sql_exmple/blob/master/spark_sql_test01.ipynb