spark sql源码浅析

原創

2019-02-19 06:40

spark 源码简单分析
sparksql 作为spark1.0所支持的lib库中唯一新增加的lib库，可见其重要地位。
分析内容：

spark sql执行流程;
hive on spark 和 hive on hadoop 的比较；

spark sql执行流程分析

首先我们来分析下sql的通用执行过程：
比如说： select n1,n2,n3 from tableN where n1 = ?
其中n1,n2,n3 是需要返回的结果，tableN 是数据源，n1=? 是查询条件。
sql 语句分析执行过程的步骤：
- 语法解析；
- 操作bind；
- 优化策略；
- 执行。
语法解析完成会形成一颗语法树，树中的每个节点便是执行的规则，整个树就是执行策略。
而接下来要解读的是sql on spark,无可厚非，也是要完成解析，优化，执行三大过程。
- sqlParser 生成逻辑计划树；
- 解析器和优化器在多个rule的基础上作用于逻辑计划树上；
- 由优化后的逻辑计划生成物理计划；
- 生成sparkRDD;
- spark执行RDD。
一般sparksql这种新特性会引入sqlContext和schemaRDD。
hive on spark 和 hive on hadoop

hiveQL 执行过程：
- 将sql解析为语法树；
- 语义分析；
- 生成逻辑计划；
- 生成查询计划；
- 优化器。
- 生成mapreduce的job。
在spark中提供了hiveContext接口，而hiveContext继承自sqlContext。
而hive中涉及到两种数据:
- schema data 数据库的定义和表结构，存储在metastore中；
- Row data 分析的文件本身。

持续更新和修改中…

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

N网下载mod方法: 20240614亲测好使

https://www.bilibili.com/video/BV1k8411575T/?vd_source=d68ed178f151e80fea1e02efd205802c

張博的博客

2024-06-15 14:23:44

Libgdx游戏开发(3)——通过柏林噪音算法地图随机地形

原文: Libgdx遊戲開發(3)——通過柏林噪音算法地圖隨機地形-Stars-One的雜貨小窩在B站刷到了隨機地圖生成的視頻,隨手學習下並做下記錄注: 本篇使用javafx應用作演示,算是瞭解這個算法的使用,後續會再出篇libgdx

2024-06-15 14:23:14

电子行业MES系统流程图梳理

2024-06-15 14:22:44

langchain Chatchat 学习实践（四）——实现对Text2Sql的支持

這裏記錄一下langchain chatchat項目中的text2sql的實現思路。 1、SQLDatabaseChain鏈 SQLDatabaseChain是langchain框架自帶的數據庫自然語言交互工具，其內部通過sqlalchem

2024-06-15 14:19:14

python cuda12 安装

pip install torch2.3.0 torchvision0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu121

2024-06-15 14:15:03

解决#error -- unsupported GNU version! gcc versions later than 11 are not supported!

ubuntu系統gcc版本太高導致cuda編譯報錯，可以手動切換gcc版本： #切換gcc版本 sudo update-alternatives --config gcc #切換g++版本 sudo update-alternatives

2024-06-15 14:14:43

Codeforces Global Round 26 D ''a'' String Problem（思维）

這題思維性很強，沒搞出來，純記錄一下。看題解看了很久纔看懂。代碼補充了幾個例子幫助理解。思路可以參考Codeforces Global Round 26 (A - E) - Lu_xZ - 博客園 (cnblogs.com) 1 #de

2024-06-15 14:14:03

前端使用 Konva 实现可视化设计器（15）- 自定义连接点、连接优化

前面，本示例實現了折線連接線，簡述了實現的思路和原理，也已知了一些缺陷。本章將處理一些缺陷的同時，實現支持連接點的自定義，一個節點可以定義多個連接點，最終可以滿足類似圖元接線的效果。請大家動動小手，給我一個免費的 Star 吧~ 大家如

2024-06-15 14:11:43

为centos7系统添加新用户并设置秘钥登陆

要在CentOS 7系統上創建一個新用戶evan，並禁止其使用密碼登錄而僅允許密鑰登錄，你可以按照以下步驟操作：創建新用戶使用root賬號登錄到CentOS 7系統，然後運行以下命令來創建新用戶evan：

憤怒的碼農

2024-06-15 14:09:23

Odoo jsonb查询

1. ->>查詢具體字段 SELECT * FROM product_template WHERE description_purchase->>'en_US' = 'purchase_food' 2. ::name 完整字符串匹配

2024-06-15 14:07:53

在 Solidity 中将地址类型转换为 IERC20 接口类型

在智能合約開發中，尤其是涉及到 ERC-20 代幣交互時，開發者常常需要將一個地址類型轉換爲 IERC20 接口類型。這樣做的目的是爲了調用接口中的函數，如 transfer 和 approve。本文將詳細講解這一過程，並簡要介紹相關的背景

2024-06-15 14:07:53

solidity calldata学习

在 Solidity 中，calldata 是一種數據位置標識符，用於指定函數參數的存儲位置。calldata 特別適用於函數的外部調用參數，並且是隻讀的。以下是對 Solidity 中數據位置的一些說明： storage: 用於狀態變量

2024-06-15 14:07:53

理解 Solidity 中的修饰器（Modifiers)

在智能合約開發中，代碼的可讀性和安全性至關重要。Solidity 作爲以太坊上最常用的編程語言，爲開發者提供了一種強大的工具——修飾器（modifiers）。修飾器可以在函數調用前後執行特定的代碼，簡化邏輯並增強合約的安全性。本文將深入探討

2024-06-15 14:07:53

探索 Solidity 中的各种修饰符

探索 Solidity 中的各種修飾符在智能合約開發中，確保代碼的安全性、可讀性和高效性至關重要。Solidity 作爲以太坊上最廣泛使用的編程語言，提供了一系列的修飾符來幫助開發者實現這些目標。本文將深入探討 Solidity 中的各種

2024-06-15 14:07:53

全球国家或地区ISO代码，IOS2编码，IOS3编码

最近項目需要使用到全球國家或地區ISO編碼。發現網上並沒有完整的數據，然後就自己抓了一些數據回來。分享給大家，拿來可以直接使用。 excel文件：https://github.com/mtyh/CountryCodeCrawler/tre

2024-06-15 14:05:12

24小時熱門文章

最新文章

最新評論文章