Hive 原理 把SQL 轉化成底層的MapReduce結構
RDD只能看見對象看不見對象中的內容; dataframe可以看見內容
SparkSession支持從不同的數據源加載數據 並把數據轉換爲dataframe支持把dataframe轉換成SQL context自身的表然後使用SQL來操作數據
# 創建Sparksession對象
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
readwrite
# read
spark.read.format('text').load('people.txt')
# write
df.write.json('people.json')
df.write.format('json').save('people.json')
通用操作
- printSchema()
- select()
- filter()
- groupBy()
- sort()