Spark SQL

Hive 原理 把SQL 轉化成底層的MapReduce結構

 

RDD只能看見對象看不見對象中的內容; dataframe可以看見內容

SparkSession支持從不同的數據源加載數據 並把數據轉換爲dataframe支持把dataframe轉換成SQL context自身的表然後使用SQL來操作數據

# 創建Sparksession對象
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

readwrite

# read
spark.read.format('text').load('people.txt')
# write
df.write.json('people.json')
df.write.format('json').save('people.json')

 通用操作

  • printSchema()
  • select()
  • filter()
  • groupBy()
  • sort()
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章