数仓的等待视图中，为什么会有Hashjoin-nestloop

原創

原创

2024-02-28 11:09

本文分享自华为云社区《GaussDB(DWS)等待视图之Hashjoin-nestloop》，作者：Arrow0lf。

1. 业务场景

众所周知，GaussDB(DWS)中有3种常见的join方式：HashJon/MergeJoin/NestLoop

但在有一些场景中，等待视图中等待状态会显示为：HashJoin-nestloop，如下图所示。这种表示什么含义？

2. 基本原理

为了明白该状态的原因，首先思考如下场景：当业务侧两张大表join时，如果由于未做analyze或统计信息不准，导致build hash的一侧选择了大表，且该表在join列上重复值很多，会导致hashjoin时内存膨胀，当内存不足时，hashjon算子会下盘，但是由于join列上存在大量重复值，下盘文件无法有效分裂，此时，如果将整个文件都读取到内存中，会导致内存占用很高，出现内存过载，导致其他业务内存不足报错。

为了解决该场景，在向量化hashjoin时，当使用内表创建的hash表过大导致内存不足时，不再强制进行hashjoin，会通过内外表交换或执行nestloop使查询平稳进行，防止出现内存报错，此时，等待视图状态为“HashJoin-nestloop”

上述特性通过hashjoin_spill_strategy参数控制，默认为0，取值范围为0-6的整数，详情可以参考产品文档（8.1.2及以上版本），简单来讲：

取值为0或5，hashjoin时会先尝试内外表交换，如果仍然内存占用高，会选择nestloop；

取值为1或6，hashjoin时会先尝试内外标交换，如果仍然内存占用高，会强行执行hashjoin;

取值为2，hashjoin行为和原本的行为保持一致，即使内存不够，也会强制执行hashjoin

3. 业务影响

当等待视图出现Hashjoin-nestloop时，可能会导致原来内存占用高，单能执行成功的语句，在被转换成nestloop后，可能会短时间执行不出来。尤其是当数据量变化较大，统计信息差异较大时，容易出现执行计划非最优场景下的性能劣化。

4. 解决方法

如果出现上述HashJoin-nestloop时间长，导致业务超时的情况。可以将参数hashjoin_spill_strategy设置为2进行规避。不再进行内外表交换或执行nestloop，使业务行为与之前的行为保持一致。

在内存充裕的场景下，可以全局设置为2。

点击关注，第一时间了解华为云新鲜技术~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

数仓的等待视图中，为什么会有Hashjoin-nestloop

1. 业务场景

2. 基本原理

3. 业务影响

4. 解决方法

EXCEL中下拉菜单中添加新选项或者删除选项

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

同事使用 insert into select 迁移数据，开开心心上线，上线后被公司开除！

Git使用经验总结5-修改提交信息

Python 爬虫：Spring Boot 反爬虫的成功案例

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

Git使用经验总结4-撤回上一次本地提交

Java中止线程的方式

压榨数据库的真实处理速度

国内SaaS遇冷？未来企业服务赛道是否还有机会？

一鍵自動化博客發佈工具,用過的人都說好(阿里雲篇)

海外市場成 ISV 新掘金地？生成式 AI 如何加速業務創新實踐？Zilliz 有話說

Apache DolphinScheduler 3.3.0 版本重磅更新提前看！

Apache DolphinScheduler 4月簡報：社區發展與技術革新速遞

git 將其中一個文件恢復到之前的版本

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結