spark处理数据倾斜的案例

原創

2019-06-30 22:06

在前期的工作遇到了很多数据倾斜的案例，在此记录下解决的心得

1) 大表join小表:

执行某段sql，出现了Executor OOM的现象，查看其stage的状况:

第3个stage读取了21.1G的数据，并shuffle写入了2.6G的数据，由于两个表根据字段进行join，因此必然会触发shuffle操作。最后的stage4 需要从stage3 shuffle read 2.6G的数据，再写入到本地，从图中可知，stage4只shuffle读取了1.2G的数据，然后就失败，因此剩余的1.4G数据倾斜到了一个分区中。

查看下sql执行计划:

从图中可知，左边只读取了107条记录，而右表读取了10亿条数据，但最终执行的join方式为sort merge join。

sort merge join是sparksql中对两张大表进行join的方式之一，基本原理如图所示:

1) 在shuffle阶段，将两张大表根据join key进行重新分区，key相同的记录会被划分到一个分区中
2) 在sort阶段，对单个分区节点的两表数据，按照key进行重新排序
3) 在merge阶段，对排序好的两张表进行join操作，通过顺序移动两边指针，遇到相同的key就merge输出

这是一个很典型的小表join大表的例子，因此很容易想到对小表进行广播，sparksql中对小表进行广播的阈值是10M，在这里我们通过sparksql hint手动对小表进行广播:

/*+ mapjoin(t_point)*/ 表示对表t_point进行广播

执行该sql，查看spark的执行stage情况:

从stage情况来看，没有出现shuffle情况，因为小表被广播到了大表所在节点上，因此不会产生跨节点数据传输。

从sql的执行计划来看，执行了broadcast join。

2) 两张大表join

sql逻辑时两张大表根据appid进行join，并且最终提取相关字段，但执行时出现了数据倾斜现象:

从图中可以看出，其中一个task的shuffle数据量明显比其它task多。

经过分析，发现是由于appid为 100IME这个条件的记录非常多，导致该记录出现了数据膨胀的现象。

由于两张表都是大表，因此不能采用第一种对表进行广播的方式。

我们将数据输出分为两步，首先在两张表中过滤掉appid为100IME的记录，过滤之后的appid分布较为均匀，因此数据很快跑出；

第二步也就是在两张表中筛选appid为100IME的记录，注意这时两张表不能直接进行join，否则所有的数据会落到一个分区中(因为key都是一样)

我们首先将两张表筛选appid为100IME的记录得到两个rdd，然后在两个rdd进行join的地方指定分区函数，见下图的代码:

我们在该分区函数中指定分区数量为200，同时对key进行随机路由，因为这里的key都是100IME，所以我们通过random函数让当前记录随机路由到200个分区中任意一个分区中。

执行该代码后，观察执行图:

从图中可以看到，每个task处理的数据都很均匀，没有出现数据倾斜现象。

最后将两部分的数据合并到一起就完成了整个业务流程。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

解密Prompt系列31. LLM Agent之从经验中不断学习的智能体

Agent智能體的工作流可以簡單分成兩種：一種是固定的靜態工作流，一種是智能體自主決策的動態工作流。靜態流程的Agent舉幾個例子，例如新聞熱點追蹤推送Agent，每日新論文摘要總結Agent，它們的優點是可控，穩定，可復現，缺點是一種流

風雨中的小七

2024-06-11 14:22:16

第十二节：MySQL8.x版本新特性和变化

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-06-11 14:21:36

杭州的 IT 崩盘了么？

大家好，我是R哥。今天分享一個爽飛了的面試輔導 case：這個杭州兄弟空窗期 1 個月+，面試了 6 家公司 0 Offer，不知道問題出在哪，難道是杭州的 IT 崩盤了麼？報名面試輔導後，經過一個多月的輔導打磨，現在成功入職某上市

2024-06-11 14:21:26

Azure Virtual Network (22) 多订阅使用Azure DNS解析问题 Windows Azure Platform 系列文章目录

　　《Windows Azure Platform 系列文章目錄》　　部署環境：　　1.我們只有1個訂閱，1個Virtual Network 　　2.我們有1個Hub-VNet, 在Virtual Network上設置了DNS Se

Lei Zhang的博客

2024-06-11 14:20:36

VS2022 解决方案打不开 .NET Framework 4.0 、 4.5 等老项目

vs2022開發工具最低支持net4.8，以下的如net3.5、4.0、4.5項目，加載不上怎麼處理。一、下載.NET Framework框架 .NET Framework 4.5.2 .NET Framework 4.5.1 .NET

鄭州-在路上

2024-06-11 14:20:26

Python 潮流周刊#55：分享 9 个高质量的技术类信息源！

大家好，我是貓哥，今天給大家分享幾個高質量的技術類信息源。本文分享的信息源都是週刊類型的，所謂週刊類，就是以固定每週的頻率更新，每期分享很多精華內容的鏈接。它的特點是信息密度極高，可以節省你去查找信息的時間，高效的學習者都會喜歡這類內容。

豌豆花下貓

2024-06-11 14:19:16

统计vertica表的行数

select anchor_table_schema || '.' || anchor_table_name as table_name, row_countfrom PROJECTION_STORAGEorder by row_co

卡卡西村長

2024-06-11 14:19:16

开源高性能结构化日志模块NanoLog

最近在寫數據庫程序，需要一個高性能的結構化日誌記錄組件，簡單研究了一下Microsoft.Extensions.Logging和Serilog，還是決定重造一個輪子。一、使用方法直接參考以下示例代碼: NanoLogger.St

2024-06-11 14:18:16

Vue3 运行可以，build 打包发布报错，app.config.globalProperties 用法坑

目錄錯誤原因解決方案 app.config.globalProperties 用法坑Vue，多環境配置 https://www.cnblogs.com/vipsoft/p/16696640.html main.js import conf

2024-06-11 14:15:15

Vue 打包 Error: error:0308010C:digital envelope routines::unsupported

這個錯誤通常與Node.js的加密模塊和OpenSSL版本有關出現這個錯誤是因爲 node.js V17版本中最近發佈的OpenSSL3.0, 而OpenSSL3.0對允許算法和密鑰大小增加了嚴格的限制，可能會對生態系統造成一些影響. j

2024-06-11 14:15:05

Windows 允许空密码远程桌面

Windows 允許空密碼遠程桌面開啓遠程修改策略輸入命令 secpol.msc 本地策略 -> 安全選項 -> 帳戶：使用空密碼的本地帳戶只允許進行控制檯登錄

2024-06-11 14:15:05

dubbo~全局异常拦截器的使用与设计缺陷~续

上一次的介紹，主要圍繞如何統一去捕獲異常，以及爲每一種異常添加自己的Mapper實現，並且我們知道，當在ExceptionMapper中返回非200的Response，不支持application/json的響應類型，而是寫死的text/p

2024-06-11 14:12:35

如何安全地访问互联网

當你深夜在瀏覽器中輸入 www.baidu.com 時有沒有想過，除了月黑風高的夜和本機的瀏覽記錄，還有誰知道你訪問了它呢？要搞清楚這件事，首先我們要了解一下訪問網站時，這其中發生了什麼。如果你在 10 年之前訪問網站，大概率會在瀏覽器的

2024-06-11 14:08:15

前端使用 Konva 实现可视化设计器（14）- 折线 - 最优路径应用【代码篇】

話接上回《前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】》，這一章繼續說說相關的代碼如何構思的，如何一步步構建數據模型可供 AStar 算法進行路徑規劃，最終畫出節點之間的連接折線。請大家動動小手，給

2024-06-11 14:08:05

[快速阅读七] Halcon里emphasize函数相关资料.

　　時不時有人問我我的SSE優化Demo裏emphasize（邊緣強調）的原理是啥，有沒有寫博客，其實不是我不願意寫博客，而是那個東西太過於簡單，我不想寫博客。但是耐不住問的人多了，我就乾脆複製點資料放在博客裏吧，省的每次我還要去找點資料複

2024-06-11 14:08:05

24小時熱門文章

最新文章

最新評論文章