Spark SQL

Hive 原理 把SQL 转化成底层的MapReduce结构

 

RDD只能看见对象看不见对象中的内容; dataframe可以看见内容

SparkSession支持从不同的数据源加载数据 并把数据转换为dataframe支持把dataframe转换成SQL context自身的表然后使用SQL来操作数据

# 创建Sparksession对象
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

readwrite

# read
spark.read.format('text').load('people.txt')
# write
df.write.json('people.json')
df.write.format('json').save('people.json')

 通用操作

  • printSchema()
  • select()
  • filter()
  • groupBy()
  • sort()
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章