pyspark sql常規語句及操作

參考:https://zhuanlan.zhihu.com/p/94375087

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html

處理結構化數據,編程入庫是sparksession

dataframe方式:創建dataframe結構後可以直接進行類pandas語句操作
sql方式:需要先註冊表之後在進行sql語句的操作

熟悉dataframe,spark sql基於rdd的一層高級封裝,本質也是一個rdd,所以具有轉換懶加載和動作,需要注意;與pandas,dataframe結構類似,語句方法很多都相似,可以快速學習

在這裏插入圖片描述
jupter notebook 傳csdn:
參考:https://blog.csdn.net/Amo_Rev/article/details/88406493

其他like,groupby、排序、select等操作可以點擊查看

https://nbviewer.jupyter.org/github/lonngxiang/spark_sql_exmple/blob/master/spark_sql_test01.ipynb

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章