Spark Sql 性能調優

原創

2019-03-24 15:03

對於某些工作負載，可以通過在內存中緩存數據或打開一些實驗選項來提高性能。

在內存中緩存數據

Spark SQL可以通過調用spark.catalog.cacheTable(“tableName”)或使用內存中的列式格式來緩存表.dataFrame.cache()。然後，Spark SQL將僅掃描所需的列，並自動調整壓縮以最小化內存使用和GC壓力。可以調用spark.catalog.uncacheTable(“tableName”)從內存中刪除表。

spark.sql.inMemoryColumnarStorage.compressed 設置爲true時，Spark SQL將根據數據統計信息自動爲每列選擇壓縮編解碼器。
spark.sql.inMemoryColumnarStorage.batchSize 10000 控制柱狀緩存的批次大小。較大的批處理大小可以提高內存利用率和壓縮率，但在緩存數據時會產生OOM風險。
其他配置選項

以下選項也可用於調整查詢執行的性能。由於會自動執行更多優化，因此可能會在將來的版本中棄用這些選項。
物業名稱默認含義

spark.sql.files.maxPartitionBytes 134217728（128 MB）讀取文件時打包到單個分區的最大字節數。
spark.sql.files.openCostInBytes 4194304（4 MB）可以在同一時間掃描通過字節數測量的打開文件的估計成本。將多個文件放入分區時使用。最好過度估計，然後使用較小文件的分區將比具有較大文件的分區（首先安排的分區）更快。
spark.sql.broadcastTimeout 300 廣播連接中廣播等待時間的超時（以秒爲單位）
spark.sql.autoBroadcastJoinThreshold 10485760（10 MB）配置在執行連接時將廣播到所有工作節點的表的最大大小（以字節爲單位）。通過將此值設置爲-1，可以禁用廣播。請注意，目前只有ANALYZE TABLE COMPUTE STATISTICS noscan運行該命令的Hive Metastore表支持統計信息。
spark.sql.shuffle.partitions 200 配置爲連接或聚合數據移動數據時要使用的分區數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發72-倍速推流/音視頻同步倍速推流/不改變幀率和採樣率/低倍速和高倍速

一、前言最近多了個新需求，需要倍速推流，推流界的扛把子obs也有倍速推流功能，最高支持到兩倍速。這裏所說的倍速，當然只限定在文件，只有文件纔可能有倍速功能，因爲也只有文件才能倍速解碼播放。實時視頻流是不可能倍速的，因爲沒有時長，有時長的纔

2024-05-05 14:31:43

IDEA 選擇 Maven profile 後不生效

參考：Idea select maven profile sometimes not working 發現切換 profile 後沒有生效。可以進入運行配置，在 Before launch 中加入 compile 目標。

Higurashi-kagome

2024-05-05 14:27:42

win11關閉自動檢測病毒刪文件

關閉掉保護即可. 有時候莊遊戲, 總是被系統當病毒刪了.

張博的博客

2024-05-05 14:19:42

編程方法學

編程語言Rank https://www.tiobe.com/tiobe-index/ 雷軍代碼：（彙編語言Assembly Language/.ass） https://cloud.tencent.com/developer/art

2024-05-05 14:13:31

.Net 8.0 下的新RPC，IceRPC之如何創建連接connection

作者引言很高興啊，我們來到了IceRPC之如何創建連接connection,基礎引導，讓自已不在迷茫，快樂的暢遊世界。如何創建連接connection 學習如何使用IceRPC，創建和接受連接。連接有什麼用途？連接在 Ice

2024-05-05 13:54:30

.NET 8 的openEuler 容器鏡像

目前.NET 8的容器鏡像已經支持openEuler，以openEuler爲基礎鏡像的應用鏡像：dotnet-deps、dotnet-runtime 和 dotnet-aspnet。基礎鏡像簡介這裏存放着由openEuler官方提供的容器鏡

2024-05-05 13:52:30

讓.NET 8 支持 Windows Vista RTM

衆所周知，從 Windows 的每次更新又會新增大量 API，這使得兼容不同版本的 Windows 需要花費很大精力。導致現在大量開源項目已經不再兼容一些早期的 Windows 版本，比如 .NET 8 AOT編譯命令行程序時生成的EXE，

2024-05-05 13:52:29

千兆寬帶實際網速能到達多少？

背景在生活中，經常會遇到這樣的問題，我們申請的帶寬是1000M，但實際下載的最高速度只有125MB（1000Mb / 8 = 125MB）有的人就會問，爲什麼下載速度這麼慢？爲什麼要除以8呢？對於這個問題，首先要知道，帶寬和網速，他們

2024-05-05 13:49:29

剝開網線表皮，裏面的8根線分別代表什麼以及作用

網線是現代網絡通信的核心組成部分，其八根線的作用各有不同。首先，網線由八根細線組成，每根細線都有其特定的功能和作用。第一根細線：負責發送數據信號。在計算機網絡通信中，數據的傳輸需要依靠信號來進行。因此，第一根細線的作用就是

2024-05-05 13:49:29

「網絡安全術語解讀」通用平臺枚舉CPE詳解

https://blog.csdn.net/u013129300/article/details/129329786

規格嚴格-功夫到家

2024-05-05 13:43:19

深入學習和理解Django視圖層：處理請求與響應

title: 深入學習和理解Django視圖層：處理請求與響應 date: 2024/5/4 17:47:55 updated: 2024/5/4 17:47:55 categories: 後端開發 tags: Django 請求處

2024-05-05 13:38:28

成都 VS 深圳

日常成都：好多老頭老太太深圳：咋這個多年輕人成都：早上公園一堆堆的打太極深圳：早上公園一堆堆跳廣場舞成都：一到冬天，天天霧霾深圳：一年四季碧水藍天成都：沒有山，山都在西邊去了深圳：大山小山不少，有山或水必有公園。週末沒事爬爬

2024-05-05 13:38:18

如何閱讀 Paper

前言論文（Paper）通常是新技術、算法、編程方法或軟件工具的首次公佈。通過閱讀論文，我們可以瞭解最新的技術進展，保持自己的技能和知識是最新的。同時，論文提供了對特定主題深入理解的機會。它們通常包含詳細的理論分析和實驗結果，這有助於深入

2024-05-05 13:32:48

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

發表時間：2023(ICLR 2023) 文章要點：文章提出一個簡單有效的ReAct框架，將reasoning和action結合，在交互式的環境上進行測試，取得了很好的效果。其中reasoning作爲推理模塊，幫助模型歸納，跟蹤和更新動作規

2024-05-05 13:32:27

sysbench的部分基準性能測試學習

sysbench的部分基準性能測試學習命令 Compiled-in tests: fileio - File I/O test cpu - CPU performance test memory - Memory funct

濟南小老虎

2024-05-05 13:29:27

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章