Oracle Dimension 上

在數據倉庫環境中,我們通常利用物化視圖強大的查詢重寫功能來提升統計查詢的性能,但是物化視圖的查詢重寫功能有時候無法智能地判斷查詢中一些相關聯的條件,以至於影響性能。比如我們有一張銷售表sales,用於存儲訂單的詳細信息,包含交易日期、顧客編號和銷售量。我們創建一張物化視圖,按月存儲累計銷量信息,假如這時候我們要查詢按季度或者按年度統計銷量信息,Oracle是否能夠智能地轉換查詢重寫呢?我們知道交易日期中的日期意味着月,月意味着所處的季度,季度意味着年度,但是Oracle卻是無法智能地判斷這其中的關係,因此無法利用物化視圖查詢重寫來返回我們季度或年度的銷量信息,而是直接查詢基表,導致性能產生問題。

這時候Dimension就派上用場了。Dimension用於說明列之間的父子對應關係,以使優化器能夠自動轉換不同列的關係,利用物化視圖的查詢功能來提升查詢統計性能。下面我們首先創建一張銷售交易表sales,包含交易日期、顧客編號和銷售量這幾個列,用於保存銷售訂單信息,整個表有42萬多條記錄;創建另一張表time_hierarchy用於存儲交易日期中時間的關係,包含交易日期及其對應的月、季度及年度等信息,然後我們將體驗Dimension的強大功能。

Roby@XUE> create table sales

2 (trans_date date, cust_id int, sales_amount number );

Table created.

Roby@XUE> insert /*+ APPEND */ into sales

2 select trunc(sysdate,'year')+mod(rownum,366) TRANS_DATE,

3 mod(rownum,100) CUST_ID,

4 abs(dbms_random.random)/100 SALES_AMOUNT

5 from all_objects

6 /

5926 rows created.

Roby@XUE> commit;

Commit complete.

Roby@XUE> begin

2 for i in 1 .. 6

3 loop

4 insert /*+ APPEND */ into sales

5 select trans_date, cust_id, abs(dbms_random.random)/100 SALES_AMOUNT

6 from sales;

7 commit;

8 end loop;

9 end;

10 /

PL/SQL procedure successfully completed.

Roby@XUE> select count(*) from sales;

COUNT(*)

----------

426672

創建索引組織表time_hierarchy,裏面生成了交易日期中日期DAY、月MMYYYY、季度QTY_YYYY、年度YYYY的關係。

Roby@XUE> create table time_hierarchy

2 (day primary key, mmyyyy, mon_yyyy, qtr_yyyy, yyyy)

3 organization index

4 as

5 select distinct

6 trans_date DAY,

7 cast (to_char(trans_date,'mmyyyy') as number) MMYYYY,

8 to_char(trans_date,'mon-yyyy') MON_YYYY,

9 'Q' || ceil( to_char(trans_date,'mm')/3) || ' FY'

10 || to_char(trans_date,'yyyy') QTR_YYYY,

11 cast( to_char( trans_date, 'yyyy' ) as number ) YYYY

12 from sales

13 /

Table created.

接下我們創建一張物化視圖mv_sales,用於存儲每個客戶對應每個月的銷量統計信息。

Roby@XUE> create materialized view mv_sales

2 build immediate

3 refresh on demand

4 enable query rewrite

5 as

6 select sales.cust_id, sum(sales.sales_amount) sales_amount,

7 time_hierarchy.mmyyyy

8 from sales, time_hierarchy

9 where sales.trans_date = time_hierarchy.day

10 group by sales.cust_id, time_hierarchy.mmyyyy

11 /

Materialized view created.

 

我們對基表進行分析,以使優化器能夠物化視圖的查詢重寫功能:

Roby@XUE> analyze table sales compute statistics;

Table analyzed.

Roby@XUE> analyze table time_hierarchy compute statistics;

Table analyzed.

設置會話的查詢重寫功能:

Roby@XUE> alter session set query_rewrite_enabled=true;

Session altered.

Roby@XUE> alter session set query_rewrite_integrity=trusted;

Session altered.

接下來我們按月統計總的銷量:

Roby@XUE> select time_hierarchy.mmyyyy, sum(sales_amount)

2 from sales, time_hierarchy

3 where sales.trans_date = time_hierarchy.day

4 group by time_hierarchy.mmyyyy

5 /

MMYYYY SUM(SALES_AMOUNT)

---------- -----------------

12006 4.0574E+11

12007 1.2297E+10

22006 3.6875E+11

32006 3.9507E+11

42006 3.7621E+11

52006 3.8549E+11

62006 3.6641E+11

72006 3.8110E+11

82006 3.8502E+11

92006 3.7278E+11

102006 3.7983E+11

112006 3.7210E+11

122006 3.8364E+11

13 rows selected.

Execution Plan

----------------------------------------------------------

0 SELECT STATEMENT Optimizer=CHOOSE (Cost=4 Card=327 Bytes=8502)

1 0 SORT (GROUP BY) (Cost=4 Card=327 Bytes=8502)

2 1 TABLE ACCESS (FULL) OF 'MV_SALES' (Cost=2 Card=327 Bytes=8502)

Statistics

----------------------------------------------------------

17 recursive calls

0 db block gets

25 consistent gets

4 physical reads

我們可以看到查詢使用了查詢重寫的功能,直接查詢物化視圖中的查詢方案,而不是查詢其表,邏輯IO只有25個,性能相當良好。

假如這時候我們要按季度來查詢統計銷量信息,結果又會是怎樣呢?

Roby@XUE> select time_hierarchy.qtr_yyyy, sum(sales_amount)

2 from sales, time_hierarchy

3 where sales.trans_date = time_hierarchy.day

4 group by time_hierarchy.qtr_yyyy

5 /

QTR_YYYY SUM(SALES_AMOUNT)

------------------------------------------------ -----------------

Q1 FY2006 1.1696E+12

Q1 FY2007 1.2297E+10

Q2 FY2006 1.1281E+12

Q3 FY2006 1.1389E+12

Q4 FY2006 1.1356E+12

Execution Plan

----------------------------------------------------------

0 SELECT STATEMENT Optimizer=CHOOSE (Cost=1681 Card=5 Bytes=145)

1 0 SORT (GROUP BY) (Cost=1681 Card=5 Bytes=145)

2 1 NESTED LOOPS (Cost=35 Card=426672 Bytes=12373488)

3 2 TABLE ACCESS (FULL) OF 'SALES' (Cost=35 Card=426672

4 2 INDEX (UNIQUE SCAN) OF 'SYS_IOT_TOP_7828' (UNIQUE)

Statistics

----------------------------------------------------------

14 recursive calls

0 db block gets

428048 consistent gets

599 physical reads

可以看到查詢將直接查詢基表產生了將近428048個邏輯IO,性能無法滿足需求。

接下我們創建一個Dimensiontime_hierarchy_dim,用於提醒優化器time_hierarchy表中的DAY列暗示着MMYYYYMMYYYY又意味着QTY_YYYYQTY_YYYY又意味着YYYY。然後我們將重新運行上面那個查詢,看執行計劃發生了怎樣的變更。

Roby@XUE> create dimension time_hierarchy_dim

2 level day is time_hierarchy.day

3 level mmyyyy is time_hierarchy.mmyyyy

4 level qtr_yyyy is time_hierarchy.qtr_yyyy

5 level yyyy is time_hierarchy.yyyy

6 hierarchy time_rollup

7 (

8 day child of

9 mmyyyy child of

10 qtr_yyyy child of

11 yyyy

12 )

13 attribute mmyyyy

14 determines mon_yyyy;

Dimension created.

Roby@XUE> select time_hierarchy.qtr_yyyy, sum(sales_amount)

2 from sales, time_hierarchy

3 where sales.trans_date = time_hierarchy.day

4 group by time_hierarchy.qtr_yyyy

5 /

QTR_YYYY SUM(SALES_AMOUNT)

------------------------------------------------ -----------------

Q1 FY2006 1.1696E+12

Q1 FY2007 1.2297E+10

Q2 FY2006 1.1281E+12

Q3 FY2006 1.1389E+12

Q4 FY2006 1.1356E+12

Execution Plan

----------------------------------------------------------

0 SELECT STATEMENT Optimizer=CHOOSE (Cost=14 Card=5 Bytes=195)

1 0 SORT (GROUP BY) (Cost=14 Card=5 Bytes=195)

2 1 HASH JOIN (Cost=7 Card=1157 Bytes=45123)

3 2 VIEW (Cost=4 Card=46 Bytes=598)

4 3 SORT (UNIQUE) (Cost=4 Card=46 Bytes=598)

5 4 INDEX (FAST FULL SCAN) OF 'SYS_IOT_TOP_7828' (UNIQUE)

6 2 TABLE ACCESS (FULL) OF 'MV_SALES' (Cost=2 Card=327

Statistics

----------------------------------------------------------

193 recursive calls

0 db block gets

49 consistent gets

2 physical reads

可以看到創建Dimension後,Oracle已經能夠智能地理解交易日期中月度和季度的轉換關係,查詢使用到物化視圖,邏輯IO由原來的428048個減少到49個,性能有了大幅的提升。

同樣我們再來統計一下年度的銷量信息:

Roby@XUE> select time_hierarchy.yyyy, sum(sales_amount)

2 from sales, time_hierarchy

3 where sales.trans_date = time_hierarchy.day

4 group by time_hierarchy.yyyy

5 /

YYYY SUM(SALES_AMOUNT)

---------- -----------------

2006 4.5721E+12

2007 1.2297E+10

Execution Plan

----------------------------------------------------------

0 SELECT STATEMENT Optimizer=CHOOSE (Cost=10 Card=2 Bytes=66)

1 0 SORT (GROUP BY) (Cost=10 Card=2 Bytes=66)

2 1 HASH JOIN (Cost=7 Card=478 Bytes=15774)

--End--

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章