SparkSession使用

原創

2019-05-13 08:56

介紹：SparkSession 是 Spark SQL 的入口。使用 Dataset 或者 Datafram 編寫 Spark SQL 應用的時候，第一個要創建的對象就是 SparkSession。你可以通過 SparkSession.builder 來創建一個 SparkSession 的實例,並通過 stop 函數來停止 SparkSession。
例子：
import org.apache.spark.sql.SparkSession
val spark: SparkSession = SparkSession.builder
.appName(“My Spark Application”) // optional and will be autogenerated if not specified
.master(“local[*]”) // avoid hardcoding the deployment environment
.enableHiveSupport() // self-explanatory, isn’t it?
.config(“spark.sql.warehouse.dir”, “target/spark-warehouse”)
.getOrCreate

對象：：在 SparkSession 的內部，包含了SparkContext， SharedState，SessionState 幾個對象。下表中介紹了每個對象的大體功能：
方法與類：這些方法包含了創建 DataSet, DataFrame, Streaming等。

Builder：Builder 是 SparkSession 的構造器。通過 Builder, 可以添加各種配置。Builder 的方法如下：

例子如下：
import org.apache.spark.sql.SparkSession
val spark: SparkSession = SparkSession.builder
.appName(“My Spark Application”) // optional and will be autogenerated if not specified
.master(“local[*]”) // avoid hardcoding the deployment environment
.enableHiveSupport() // self-explanatory, isn’t it?
.getOrCreate

ShareState:通過設置 log4j.logger.org.apache.spark.sql.internal.SharedState=INFO 可以看到相應的日誌。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

SparkSession使用

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

【Linux命令學習】lsof查看打開的文件

chp1:推薦系統框架

項目開發python-----測試集與訓練集劃分模塊

作爲程序員的學習資料

項目開發python----數據預處理模塊

SparkSession使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結