Spark SQL：基本介紹(特點)

原創

真情流露哦呦

2020-04-25 01:42

Spark SQL官方介紹

官網:http://spark.apache.org/sql/

Spark SQL是Spark用來處理結構化數據的一個模塊。
Spark SQL還提供了多種使用方式，包括DataFrames API和Datasets API但無論是哪種API或者是編程語言，它們都是基於同樣的執行引擎，因此你可以在不同的API之間隨意切換，它們各有各的特點。

Spark SQL 的特點

易整合
可以使用java、scala、python、R等語言的API操作。
統一的數據訪問
連接到任何數據源的方式相同。
兼容Hive
支持hiveHQL的語法。
兼容hive(元數據庫、SQL語法、UDF、序列化、反序列化機制)
標準的數據連接
可以使用行業標準的JDBC或ODBC連接。

SQL優缺點

SQL的優點
表達非常清晰, 比如說這段 SQL 明顯就是爲了查詢三個字段，條件是查詢年齡大於 10 歲的
難度低、易學習。
SQL的缺點
複雜分析,SQL嵌套較多：試想一下3層嵌套的 SQL維護起來應該挺力不從心的吧
機器學習較難：試想一下如果使用SQL來實現機器學習算法也挺爲難的吧
Hive和SparkSQL：
Hive是將SQL轉爲MapReduce
SparkSQL可以理解成是將SQL解析成’RDD’ + 優化再執行

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark深入分析（目錄）

Spark-Core Spark-Init SparkContext SparkEnv SparkConf RpcEnv SparkStatusTracker SecurityManager SparkUI MetricsSyst

2020-06-16 02:34:00

SparkSQL插入數據到MongoDB

首先導入POM文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:

真情流露哦呦

2020-06-16 02:40:28

SparkSQL之DataFrame使用詳解

一、應用 1.show def show1(ss:SparkSession):Unit={ val df=ss.read.json("E:\\data\\spark\\dataframe\\test\\read\\pe

2020-07-06 16:08:42

Spark SQL 基本概念

寫在前面的話：因爲本人在職，所以沒有充分的時間寫博客，所以經常是寫好整個框架，再陸陸續續的補充修改。所以如果發現什麼錯誤請留言。本文主要目的是記錄在閱讀Spark源碼時發現的SQL基本概念的知識遺漏，這樣可以更加快速的閱讀源碼的

2020-07-03 16:19:34

Spark-SQL常用調優參數彙總

本文主要是日常工作的積累，主要是簡單羅列了常見的spark SQL的參數及其含義。 #Job ID /Name spark.app.name=xxx #yarn 進行調度，也可以是mesos，yarn，以及standalone

2020-07-03 16:19:34

第三天：SparkSQL

第1章 Spark SQL概述什麼是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了2個編程抽象：DataFrame和DataSet，來作爲分佈式SQL查詢的引擎。我們已經學習了Hive

2020-07-02 16:37:12

SparkSql 項目實戰

第 1 章準備數據我們這次 Spark-sql 操作中所有的數據均來自 Hive. 首先在 Hive 中創建表, 並導入數據. 一共有 3 張表: 1 張用戶行爲表, 1 張城市表, 1 張產品表 CREATE TABLE `use

2020-06-30 02:23:52

Dataframe中na.fill的用法

對兩個數據表如A，B取JOIN操作的時候，其結果往往會出現NULL值的出現。這種情況是非常不利於後續的分析與計算的，特別是當涉及到對這個數值列進行各種聚合函數計算的時候。 Spark爲此提供了一個高級操作，就是：na.

2020-06-24 04:47:25

SparkSQL學習（三）SparkSQL讀取Mysql的兩種方式

第一種：package Mysql import java.util.Properties import org.apache.spark.sql.DataFrame import org.apache.spark.sql.hive.H

匿名啊啊啊

2020-06-23 09:34:12

SparkSQL官網Java示例ERROR CodeGenerator: failed to compile問題

Table of Contents 問題代碼定位問題沒完呢？定位問題正確的代碼總結問題代碼 SparkSessionJavaTest.java package sparkSQL.apachedemo; import

2020-06-22 02:41:56

SparkSQL 使用UDAF實現自定義聚合函數

一、介紹 Spark SQL中自定義函數包括UDF和UDAF 自定義函數 UDF：一進一出 UDAF：多進一出 √ 二、UDAF函數 UDAF：User Defined Aggregate Func

2020-06-16 12:38:06

SparkSQL 使用UDAF實現自定義聚合函數

一、介紹 Spark SQL中自定義函數包括UDF和UDAF （先前已經發布一篇SparkSQL的UDF函數，現在爲大家講解一下UDAF自定義聚合函數）自定義函數 UDF：一進一出 UDAF：多進

2020-06-16 12:38:06

SparkRDD+SparkSession進行數據清洗與數據分析並遷移至數據庫中

SparkSQL+SparkRDD對中國保險汽車安全指數數據測試進行清洗與分析榮幸終於轉入大數據工程師，根據最近正在做的項目，爲大家抽取了部分爲大家提供參考。寒江孤影，江湖故人啊 Spark SQL是構建在Spark RDD

2020-06-16 12:38:06

Windows報Failed to locate the winutils binary in the hadoop binary path，java.io.IOException:

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ http://blog.csdn.net/xiaoduan_/article/details/79476815 Windows平臺上運行hadoop與spa

2020-06-16 06:40:21

SparkSQL中SQL、DataFrame和DataSet方式的靜態類型安全和運行時類型安全

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ https://blog.csdn.net/xiaoduan_/article/details/79751755 SQL、DataFrame和DataSet

2020-06-16 06:40:11

24小時熱門文章

最新文章

最新評論文章