常用的兩種數據分區方法(以Teradata爲例)

原創

2018-12-23 13:08

海量數據性能優化的一個基本的原則就是“分區”（也有叫“分片”的）。分區思想其實就是日常工作生活中的抽屜原理：我們把自己的物品按照某種邏輯歸置到多個小抽屜中，一般會比混在一個大抽屜中好找；但是小抽屜太多了、或者邏輯混亂了，也可能效果適得其反。

Teradata的分區語法較爲簡潔，其中常用的是按時間分區，如下例只要添加到create table語句末尾就可以實現2013年全年一天一個分區了（爲了省事，可以一次分5-10年）：

PARTITION BY RANGE_N(  
    Rcd_Dt BETWEEN DATE '2013-01-01' AND DATE '2013-12-31'
    EACH INTERVAL '1' DAY, NO RANGE
);

另外一個常用（但是不容易掌握）的是按字符串取值分區。在上述按時間分區中我們可以看到RANGE_N關鍵字。按值分區採用CASE_N關鍵字，如下例所示：

PARTITION BY CASE_N(   
 (CASE WHEN (my_field='A') THEN (1) ELSE (0) END)=1,    
 (CASE WHEN (my_field='B') THEN (2) ELSE (0) END)=2,    
 (CASE WHEN (my_field='C') THEN (3) ELSE (0) END)=3,    
NO CASE OR UNKNOWN);

更進一步，其中如下面的語法元素：

my_field='A'

可以修改爲類似於這樣的形式：

SUBSTR(my_field,1,1) IN ('E','F','G')

在現實中，因爲訪問數據從全表掃描變成了分區掃描的原因，某些步驟可以達成10-100倍的性能提升。對於複雜的耗時較長的大作業，也總是能夠縮短一半以上的運行時間。非常有意思的現象是，即使是經驗豐富的開發人員，對數據分區的掌握也不一定很好。數據分區理念是超越具體數據庫的，無論是Teradata還是別的什麼數據庫，在我過去將近十年的職業生涯中，大多數性能問題都可以通過數據分區得以妥善解決。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

常用的兩種數據分區方法(以Teradata爲例)

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

jQuery:掌握選擇器

我的友情鏈接

javascript提取標籤之間的信息

java學習:理解abstract

java:eclipse:windows開發環境log4j系統找不到指定的路徑

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結