EMR Spark-SQL性能極致優化揭祕 Native Codegen Framework

原創

開源大數據EMR

2020-06-16 14:16

作者：周克勇，花名一錘，阿里巴巴計算平臺事業部EMR團隊技術專家，大數據領域技術愛好者，對Spark有濃厚興趣和一定的瞭解，目前主要專注於EMR產品中開源計算引擎的優化工作。

背景和動機

SparkSQL多年來的性能優化集中在Optimizer和Runtime兩個領域。前者的目的是爲了獲得最優的執行計劃，後者的目的是針對既定的計劃儘可能執行的更快。

相比於Runtime，Optimizer是更加通用的、跟實現無關的優化。無論是Java世界(Spark, Hive)還是C++世界(Impala, MaxCompute)，無論是Batch-Based(Spark, Hive)還是MPP-Based(Impala, Presto)，甚至無論是大數據領域還是傳統數據庫領域亦或HTAP領域(HyPer, ADB)，在Optimizer層面考慮的都

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

從NoSQL到NewSQL——10年代大數據浪潮下的技術革新

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫演變

2024-04-28 23:12:26

“百團大戰”下，20年代的國產數據庫如何乘風破浪？

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫

2024-04-28 23:12:24

大數據小白的測試成長之路

引言 22年校招入職京東後，我一直在數據中臺測試部從事測試開發的工作。畢業後，寫的最多的文檔是測試計劃和測試報告，鮮有機會就自己的成長碼字進行回顧和總結。借“up技術人”欄目，也終於是在工作之餘回頭望，對自己這近兩年時光進行一個小總結

2024-04-28 11:17:19

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

1 名工程師輕鬆管理 20 個工作流，創業企業用 Serverless 讓數據處理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

哈哈哈哈或

在Java編程中，簡潔高效的實現往往涉及幾個關鍵原則和技能。例如，使用簡單的代碼結構來提高代碼訪問性和可維護性，這意味着代碼應該追求清晰、簡潔且模式匿名，因爲過度模式匿名會導致複雜度增長，影響代碼的維護性和效率。其中，簡潔高效還包攜

2024-04-28 00:40:41

Java編程工具：簡潔高效實現

Java編程工具：簡潔高效實現Java編程工具：簡潔高效實現Java編程工具：簡潔高效實現

2024-04-27 00:41:09

Java word通過html設置樣式（Spire Docx）

Java word通過html設置樣式（Spire Docx） <dependencies>  <dependency>

2024-04-26 23:42:09

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

高德地圖爬蟲實踐：Java多線程併發處理策略

背景介紹高德地圖是一款基於互聯網和移動互聯網的地圖與導航應用，提供了包括地圖瀏覽、公交查詢、駕車導航、步行導航等在內的多種功能。其龐大的用戶羣體和豐富的地圖數據成爲了各行各業進行位置服務、地理信息分析等應用的首選。爬蟲實踐需求在

2024-04-25 23:26:44

三十分鐘入門基礎Go（Java小子版）

前言 Go語言定義 Go（又稱 Golang）是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 開發的一種靜態、強類型、編譯型語言。Go 語言語法與 C 相近，但功能上有：內存安

2024-04-25 23:17:43

6個實例帶你解讀TinyVue 組件庫跨框架技術

本文分享自華爲雲社區《6個實例帶你解讀TinyVue 組件庫跨框架技術》，作者：華爲雲社區精選。在DTSE Tech Talk 《手把手教你實現mini版TinyVue組件庫》的主題直播中，華爲雲前端開發DTSE技術佈道師阿健老師給

2024-04-26 10:33:20

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

24小時熱門文章

最新文章

最新評論文章