infobright distinct 內存被爆掉

原創

2019-02-23 00:31

INFOBRIGHT 引擎下的DISTINCT的內存爆：

ERROR 9 (HY000): Brighthouse out of resources error: Insufficient memory/disk space

mysql> SELECT count( uuid) as vnum FROM visit_info WHERE (1=1) and usertype in (-1) and (begintime >= 1380556800 and begintime <= 1387209600);
+----------+
| vnum |
+----------+
| 37196097 |
+----------+
1 row in set (2.82 sec)

Distinct實現原理：

在數據庫的設計中，如何實現Distinct操作呢？一般有兩種基本思路：排序（Sort）法，哈希（Hash）法。

排序法將表格中的數據全部按照distinct指定的列爲key進行排序，然後逐行迭代，
每迭代出一行數據都與上一行數據根據key作對比，如果相同，則丟棄當前行繼續迭代下一行，
如果不同則輸出。排序法帶來的一個副作用就是數據輸出按照key有序。

哈希法將表格中的數據全部按照distinct指定的列值爲key作爲hash key進行分桶，key相同的行自然就被區分出來了。

排序法在具體實現中會遇到這麼一些問題：

1. 數據集超出了內存限制，如何排序？

2. 如何實現可以儘可能減少數據拷貝？

3. 如果已經有了Sort運算符，如何實現代碼重用。

問題：上面兩種方法在內存佔用上那個更省？

最後說個題外話，distinct跟groupby蠻像的，那麼他們的區別又在哪裏呢？簡單地說，distinct是一種很弱的groupby。詳細見網上轉載的一篇文章：

參考博客：

http://blog.csdn.net/maray/article/details/7634543

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

infobright distinct 內存被爆掉

容器中nginx無法使用同一個網絡下的容器域名

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

nodejs學習07——API

避免DbContext同時在多個線程調用

Python: SunMoonTimeCalculator

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

C# Xmlserializer 程序集內存泄露

修改Ubuntu 或者kubuntu 終端bash顯示路徑信息的方法

關於MongoDB你需要知道的幾件事

Ubuntu13.04 resolv.conf 總是被清除-網上很多轉摘的方法沒法用

關於mysql 刪除數據後物理空間未釋放(轉載)

kubuntu13 安裝無法進入桌面系統

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結