SparkSql優化

原創

_橘子甜不甜_

2019-01-16 21:24

1、避免用in和not in
解決方案：
- 用exists和not exists代替
- 用join代替
效率：
not in 慢是因爲not in 不走索引
2、in 會導致數據傾斜
3、大表join小表
策略：將小表廣播（brodcast）
參數：spark.sql.autoBroadcastJoinThreshold 默認值10485760（10M）,當小表或df的大小小於此值，Spark會自動的將該表廣播到每個節點上
原理：join是個shuffle類算子，shuffle時，各個節點上會先將相同的key寫到本地磁盤，之後再通過網絡傳輸從其他節點的磁盤文件在拉取相同的key，因此shuffle可能會發生大量的磁盤IO和網絡傳輸，性能很低，而broadcast先將小表廣播到每個節點，這樣join時都是在本地完成，不需要網絡傳輸，所以會提升性能

注意：broadcast join 也稱爲replicated join 或者 map-side join
4、寫MySQL慢
Spark df批量寫MySQL很慢，如我900萬條數據寫需要5-10個小時
解決辦法:在url後面加上
&rewriteBatchedStatements=true
&rewriteBatchedStatements=true
加上之後，寫數據10分鐘左右，快很多。
個人環境經驗：MySQL不用加就沒問題，MariaDB需要加，也就是不同的MySQL版本不一樣

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PIC18 bootloader之RS485 bootloader

瞭解更多關於bootloader 的C語言實現，請加我Q扣: 1273623966 （驗證信息請填 bootloader）,歡迎諮詢或定製bootloader（在線升級程序）。

2024-06-14 14:36:29

序列化-serialVersionUID作用

Serializable接口作用：標記一個類可以被序列化，如果沒有實現該接口，則會拋出異常。 ObjectOutputStream中源碼：實驗： serialVersionUID 作用：表示一個序列換版本，控制序列化與反序列化。

帥氣的濤啊

2024-06-14 14:36:09

windows下如何將拖拽文件位置從複製變成剪切-按住shift鍵再操作

經常碰到這種情況，我們需要把一個文件從A位置轉移到B位置。但是單純的拖拽只會複製相關文件，沒有辦法直接做到位置修改轉移的效果。搜索了一下，發現shift按住之後再進行就可以改複製爲剪切了。

2024-06-14 14:32:49

【測試理論】一個表格比較regression，smoke，sanity testing區別

英文版，外企面試喜歡考 Testing Type Definition Purpose When to Perform Techniques Challenges Regression Ensures previously d

金大鑫要堅持

2024-06-14 14:30:59

docker hub鏡像源

https://github.com/DaoCloud/public-image-mirror 增加前綴 (推薦方式)。比如： k8s.gcr.io/coredns/coredns => m.daocloud.io/k8s.gcr.io/c

2024-06-14 14:28:59

【乾貨分享】.NET人臉識別解決方案

前言前段時間有同學在DotNetGuide技術社區交流羣提問：.NET做人臉識別功能有什麼好的解決方案推薦的嗎？今天大姚給大家推薦2款.NET開源、免費、跨平臺、使用簡單的人臉識別庫，希望可以幫助到有需要的同學。人臉識別應用場景現如今

2024-06-14 14:25:58

小白也能玩轉Git：從入門到實戰詳細教程

Git介紹 Git是一種分佈式版本控制系統，它廣泛應用於軟件開發中。通過Git，開發人員可以追蹤文件的變化、協作工作、管理代碼庫等。與集中式版本控制系統（如SVN）不同，Git使每個開發人員都具有完整的代碼倉庫副本，這使得團隊成員能夠獨立地

2024-06-14 14:25:58

有點東西，template可以直接使用setup語法糖中的變量原來是因爲這個

前言我們每天寫vue3代碼的時候都會使用到setup語法糖，那你知道爲什麼setup語法糖中的頂層綁定可以在template中直接使用的呢？setup語法糖是如何編譯成setup函數的呢？本文將圍繞這些問題帶你揭開setup語法糖的神祕面

你假裝沒察覺

2024-06-14 14:25:08

記一次 .NET某工廠報警監控設置崩潰分析

一：背景 1. 講故事前些天有位朋友在微信上丟了一個崩潰的dump給我，讓我幫忙看下爲什麼出現了崩潰，在 Windows 的事件查看器上顯示的是經典的訪問違例，即 c0000005 錯誤碼，不管怎麼說有dump就可以上windbg開幹

2024-06-14 14:19:38

MyBatis 執行存儲過程

Mapper.xml <insert id="setReport" statementType="CALLABLE" parameterType="Map"> {call INSERT_EMR( #{IDH,

2024-06-14 14:19:08

物理機開關機

關機 [[email protected] xx]# init 0Receive Connection closedConnection websocket closed #

2024-06-14 14:17:48

遷移服務判斷是否遷移以及服務情況檢查

1、netstat -lntup 查看哪些tcp端口服務 2、netstat -an |grep unix 查看有哪些連接，分別是什麼端口 3、lsof -i:端口，查看服務端口是否有打開的文件，在使用 4、 find logs/ -

2024-06-14 14:17:48

直播預告 | 6月17日，個推分享多端精細化運營實操方法和實戰經驗

如今精細化運營仍舊是諸多企業的必修課。與此同時，企業在APP、小程序、H5、快應用等多端的用戶爭奪戰日益激烈。如何將企業自身的跨平臺場景結合，有效識別用戶設備，進行多端聯合精細化運營，成爲當前很多企業所面臨的痛點、難點。 6月17日（下週一

2024-06-14 14:17:28

dubbo~使用自定義RestRequestFilter過濾器

ServiceInvokeRestFilterd在包 org.apache.dubbo.rpc.protocol.rest.filter中，它的執行順序是最低的，爲Integer的最大值意味着，我們自定義的Filter都會在Servic

2024-06-14 14:16:28

centos常用運維命令

systemctl常用文件名:**.service 目錄:/lib/systemd/system/ 目錄:/usr/lib/systemd/system/ systemctl daemon-reload systemctl status

2024-06-14 14:15:27

24小時熱門文章

最新文章

最新評論文章