Oracle SQL優化總結

本篇轉載自：http://blog.csdn.net/tianlesoftware/article/details/7008801

之前的blog中零零散散的整理了一些優化相關的內容，找起來比較麻煩，所以總結一下，查看的時候方便一點。這篇BLog只看SQL 優化的相關的注意事項，數據庫優化部分以後有空在整理。

SQL 的優化主要涉及幾個方面：

（1）相關的統計信息缺失或者不準確

（2）索引問題

（3） SQL 的本身的效率問題，比如使用綁定變量，批量DML 採用bulk等，這個就考驗寫SQL的基本功了，這一點也是最主要的一點。

一.SQL 編寫注意事項

1.1 查看SQL

對於生產環境上的SQL,可以從AWR 或者 Statspack 報告中獲取相關的SQL 信息。

這部分參考：

Oracle AWR 介紹

http://blog.csdn.net/tianlesoftware/article/details/4682300

statspack安裝使用和report 分析

http://blog.csdn.net/tianlesoftware/article/details/4682329

查看SQL 的性能怎麼樣，最直接的工具就是通過執行計劃，通過執行計劃可以看到SQL 的執行路徑，邏輯讀，物理讀等信息，可以這些信息，可以幫助我們判斷SQL 是否還有優化的餘地。

1.2 SQL 編寫的具體注意事項

這部分工作是基本功。在SQL 編寫過程中，避免一些低效的寫法，能將SQL的效率提高几倍。如：

to_char(created,'yyyy') = '2011'

trunc(created,'y') = to_date('01-jan-2011','dd-mon-yyyy')

與使用TRUNC 相比，使用TO_CHAR 所用的CPU 時間與前者相差一個數量級（即相差12倍）。因爲TO_CHAR 必須把日期轉換爲一個串，這要使用一個更大的代碼路徑，並利用當前的所有NLS來完成這個工作。然後必須執行一個串與串的比較。另一方面，TRUNC 只需把後5 個字節設置爲1.然後將兩個7 字節的二進制數進行比較。因此，如果只是要截斷一個DATE 列，你將應該避免使用TO_CHAR。

之前從網上轉載了一篇文章，鏈接如下：

Oracle SQL的優化

http://blog.csdn.net/tianlesoftware/article/details/4672023

這是幾年前轉載的文章，其中內容有些也有誤，這裏就不更正了。

1.3 多表關聯方式

表之間的關聯有如下三種方式：

（1） Nested Loop

Inner table 循環與outer table匹配，這種是表有索引，選擇性較好，表之間的差距不大。 ===》兩層for 循環，小表匹配大表。

（2） Hash John

小表做hash ，放內存，然後拿大表的每條記錄做hash，然後與之前小表的Hash 值匹配。==》大表匹配小表。

（3） Sorted Merge Into

表有序，並且沒有索引。

具體參考：

多表連接的三種方式詳解 HASH JOIN MERGE JOINNESTED LOOP

http://blog.csdn.net/tianlesoftware/article/details/5826546

二. 相關理論說明

2.1 Oracle 優化器：CBO 和 RBO

Oracle 的優化器有兩種：

RBO(Rule-BasedOptimization): 基於規則的優化器

CBO(Cost-BasedOptimization): 基於代價的優化器

CBO（Cost Based Optimizer）的思路是讓Oracle 獲取所有執行計劃相關的信息，通過對這些信息做計算分析，最後得出一個代價最小的執行計劃作爲最終的執行計劃。

從10g開始，Oracle 已經徹底丟棄了RBO。即使在表，索引沒有被分析的時候，Oracle依然會使用CBO。此時，Oracle 會使用一種叫做動態採樣的技術，在分析SQL的時候，動態的收集表，索引上的一些數據塊，使用這些數據塊的信息及字典表中關於這些對象的信息來計算出執行計劃的代價，從而挑出最優的執行計劃。

當表沒有做分析的時候，Oracle 會使用動態採樣來收集統計信息，這個動作只有在SQL執行的第一次，即硬分析階段使用，後續的軟分析將不在使用動態採樣，直接使用第一次SQL硬分析時生成的執行計劃。

相關鏈接：

Oracle Optimizer CBO RBO

http://blog.csdn.net/tianlesoftware/article/details/5824886

Oracle CBO 與 RBO

http://blog.csdn.net/tianlesoftware/archive/2010/07/11/5709784.aspx

Oracle 分析及動態採樣

http://blog.csdn.net/tianlesoftware/article/details/5845028

2.2 軟解析和硬解析

Oracle對此SQL將進行幾個步驟的處理過程：

1、語法檢查(syntax check): 檢查此sql的拼寫是否語法。

2、語義檢查(semantic check): 諸如檢查sql語句中的訪問對象是否存在及該用戶是否具備相應的權限。

3、對sql語句進行解析(prase): 利用內部算法對sql進行解析，生成解析樹(parse tree)及執行計劃(execution plan)。

4、執行sql，返回結果(execute and return)

其中解析分爲：

Hard Parse：就是上面提到的對提交的Sql完全重新從頭進行解析(當在Shared Pool中找不到時候將會進行此操作)，總共有一下5個執行步驟：

1：語法分析

2：權限與對象檢查

3：在共享池中檢查是否有完全相同的之前完全解析好的. 如果存在，直接跳過4和5，運行Sql, 此時算soft parse.

4：選擇執行計劃

5：產生執行計劃

注：創建解析樹、生成執行計劃對於sql的執行來說是開銷昂貴的動作，所以，應當極力避免硬解析，儘量使用軟解析。這就是在很多項目中，倡導開發設計人員對功能相同的代碼要努力保持代碼的一致性，以及要在程序中多使用綁定變量的原因。

Soft Parse：就如果是在Shared Pool中找到了與之完全相同的Sql解析好的結果後會跳過Hard Parse中的後面的兩個步驟。

Oracle SQL的硬解析和軟解析

http://blog.csdn.net/tianlesoftware/archive/2010/04/08/5458896.aspx

Oracle 高 Version counts 問題說明

http://blog.csdn.net/tianlesoftware/article/details/6628232

Oracle SQL Parsing FlowDiagram（SQL 解析流程圖）

http://blog.csdn.net/tianlesoftware/article/details/6625683

那麼執行計劃放在內存的什麼位置，在一下的Blog 有說明：

Oracle Library cache 內部機制說明

http://blog.csdn.net/tianlesoftware/article/details/6629869

與解析相關的一個重要參數：cursor_sharing，它決定什麼情況下使用相同的cursor，從某種意義上講，決定是否需要進行解析，該參數有3個值：

（1）FORCE

Allowsthe creation of a new cursor if sharing an existing cursor, or if the cursorplan is not optimal.

（2）SIMILAR

Causesstatements that may differ in some literals, but are otherwise identical, toshare a cursor, unless the literals affect either the meaning of the statementor the degree to which the plan is optimized.

（3）EXACT

Onlyallows statements with identical text to share the same cursor.

--只有SQL 語句完全相同的情況下，纔會使用相同的cursor，即執行計劃。

Oracle cursor_sharing 參數詳解

http://blog.csdn.net/tianlesoftware/article/details/6551723

2.3 執行計劃

生成SQL的執行計劃是Oracle在對SQL做硬解析時的一個非常重要的步驟，它制定出一個方案告訴Oracle在執行這條SQL時以什麼樣的方式訪問數據：索引還是全表掃描，是Hash Join還是Nested loops Join等。

Oracle 執行計劃（Explain Plan）說明

http://blog.csdn.net/tianlesoftware/article/details/5827245

Oracle 從緩存裏面查找真實的執行計劃

http://blog.csdn.net/tianlesoftware/article/details/6556850

Oracle Recursive Calls 說明

http://blog.csdn.net/tianlesoftware/article/details/6561620

我們也可以使用OracleHint 來強制的改變SQL的執行計劃，當然Oracle 不建議這麼做，因爲只要統計信息正確的情況下，CBO 的分析就過一般都是正確的。

Oracle Hint

http://blog.csdn.net/tianlesoftware/article/details/5833020

2.4 10053 和 10046 事件

2.4.1 10053事件

我們在查看一條SQL的執行計劃的時候，只能看到CBO 最終告訴我們的執行計劃結果，但是不知道CBO 是根據什麼來做的。如果遇到了執行計劃失真，如：一個SQL語句，很明顯oracle應該使用索引，但是執行計劃卻沒有使用索引。無法進行分析判斷。

10053事件就提供了這樣的功能。它產生的trace文件提供了Oracle如何選擇執行計劃，爲什麼會得到這樣的執行計劃信息。

對於10053事件的trace文件，我們只能直接閱讀原始的trace文件，不能使用tkprof工具來處理，tkprof工具只能用來處理sql_trace 和 10046事件產生的trace文件。

10053事件有兩個級別：

Level2：2級是1級的一個子集，它包含以下內容：

Column statistics

Single Access Paths

Join Costs

Table Joins Considered

Join Methods Considered (NL/MS/HA)

Level1： 1級比2級更詳細，它包含2級的所有內容，在加如下內容：

Parameters used by the optimizer

Index statistics

啓用10053事件：

ALTER SESSION SET EVENTS='10053 trace namecontext forever, level 1';

ALTER SESSION SET EVENTS='10053 trace namecontext forever, level 2';

關閉10053事件：

ALTER SESSION SET EVENTS '10053 trace namecontext off';

說明：

（1）sqlplus中打開autotrace看到的執行計劃實際上是用explain plan 命令得到的，explain plan 命令不會進行bind peeking。應該通過v$sql_plan查看SQL的真實的執行計劃。

（2）10053只對CBO有效，而且如果一個sql語句已經解析過，就不會產生新的trace信息。

2.4.2 10046 事件：

10046 事件主要用來跟蹤SQL語句，它並不是ORACLE 官方提供給用戶的命令，在官方文檔上也找不到事件的說明信息。但是用的卻比較多，因爲10046事件獲取SQL的信息比SQL_TRACE 更多。更有利於我們對SQL的判斷。

10046 事件按照收集信息內容，可以分成4個級別：

Level 1：等同於SQL_TRACE 的功能

Level 4：在Level 1的基礎上增加收集綁定變量的信息

Level 8：在Level 1 的基礎上增加等待事件的信息

Level 12：等同於Level 4+Level 8, 即同時收集綁定變量信息和等待事件信息。

--啓動10046事件

SQL>alter session set events‘10046 tracename context forever, level 12’;

-- 關閉10046事件

SQL>alter session set events ‘10046 trace name context off’;

也可以使用oradebug 命令來執行10046：

SYS@anqing1(rac1)> oradebug setmypid

SYS@anqing1(rac1)> oradebug event 10046trace name context forever,level 8;

SYS@anqing1(rac1)> oradebug event 10046trace name context off;

SYS@anqing1(rac1)> oradebugtracefile_name

/u01/app/oracle/admin/anqing/udump/anqing1_ora_17800.trc

具體的內容參考：

Oracle oradebug 命令使用說明

http://blog.csdn.net/tianlesoftware/article/details/6525628

Oracle 跟蹤事件 set event

http://blog.csdn.net/tianlesoftware/article/details/4977827

Oracle 10053 事件

http://blog.csdn.net/tianlesoftware/article/details/5859027

Event 10053 執行計劃綁定變量 Bind peeking

http://blog.csdn.net/tianlesoftware/article/details/5544307

Oracle SQL Trace 和 10046 事件

http://blog.csdn.net/tianlesoftware/article/details/5857023

使用 Tkprof 分析 ORACLE 跟蹤文件

http://blog.csdn.net/tianlesoftware/article/details/5632003

2.5 統計信息

優化器收集的統計信息包括如下內容：

1）Table statistics

Number of rows

Number of blocks

Average row length

2）Column statistics

Number of distinctvalues (NDV) in column

Number of nulls incolumn

Data distribution(histogram)

3）Index statistics

Number of leaf blocks

Levels

Clustering factor

4）System statistics

I/O performance and utilization

CPU performance andutilization

統計信息收集如下數據：

（1）表自身的分析：包括表中的行數，數據塊數，行長等信息。

（2）列的分析：包括列值的重複數，列上的空值，數據在列上的分佈情況。

（3）索引的分析：包括索引葉塊的數量，索引的深度，索引的聚合因子等。

這些統計信息存放在數據字典裏，如：

（1）. DBA_TABLES

（2）. DBA_OBJECT_TABLES

（3）. DBA_TAB_STATISTICS

（4）. DBA_TAB_COL_STATISTICS

（5）. DBA_TAB_HISTOGRAMS

（6）. DBA_INDEXES

（7）. DBA_IND_STATISTICS

（8）. DBA_CLUSTERS

（9）. DBA_TAB_PARTITIONS

（10）. DBA_TAB_SUBPARTITIONS

（11）. DBA_IND_PARTITIONS

（12）. DBA_IND_SUBPARTITIONS

（13）. DBA_PART_COL_STATISTICS

（14）. DBA_PART_HISTOGRAMS

（15）. DBA_SUBPART_COL_STATISTICS

（16）. DBA_SUBPART_HISTOGRAMS

統計信息的準確程度，直接決定SQL的效率。所以需要定期的收集相關對象的統計信息。Oracle 的Statistic 信息的收集分兩種：自動收集和手工收集。

Oracle 的Automatic StatisticsGathering 是通過Scheduler 來實現收集和維護的。 Job 名稱是GATHER_STATS_JOB, 該Job收集數據庫所有對象的2種統計信息：

（1）Missing statistics（統計信息缺失）

（2）Stale statistics（統計信息陳舊）

該Job 是在數據庫創建的時候自動創建，並由Scheduler來管理。Scheduler 在maintenance windows open時運行gather job。默認情況下，job 會在每天晚上10到早上6點和週末全天開啓。該過程首先檢測統計信息缺失和陳舊的對象。然後確定優先級，再開始進行統計信息。

Scheduler Job的 stop_on_window_close 屬性控制GATHER_STATS_JOB 是否繼續。該屬性默認值爲True. 如果該值設置爲False，那麼GATHER_STATS_JOB 會中斷，而沒有收集完的對象將在下次啓動時繼續收集。

Gather_stats_job 調用dbms_stats.gather_database_stats_job_proc過程來收集statistics 的信息。該過程收集對象statistics的條件如下：

（1）對象的統計信息之前沒有收集過。

（2）當對象有超過10%的rows 被修改，此時對象的統計信息也稱爲stale statistics。

Oracle Statistic 統計信息小結

http://blog.csdn.net/tianlesoftware/article/details/4668723

Oracle 判斷並手動收集統計信息腳本

http://blog.csdn.net/tianlesoftware/article/details/6445868

三.索引

3.1 索引分類

索引對DB的性能中起着重要的作用。 Oracle 有如下類型的索引：

B樹索引(默認類型)
位圖索引
HASH索引
索引組織表索引
反轉鍵(reverse key)索引
基於函數的索引
分區索引(本地和全局索引)
位圖連接索引

3.2 索引限制

這部分內容應該放到SQL 編寫部分，不過爲了強調，還是放到這塊。

即使相關字段上有索引，在如下4種情況，也不會走作引：

(1) 使用不等於操作符（<>、!=）

(2) 使用IS NULL 或IS NOT NULL

(3) 使用函數

(4) 比較不匹配的數據類型

所以在SQL 編寫過程中，儘量避免以上4種情況。

具體參考：

Oracle 索引詳解

http://blog.csdn.net/tianlesoftware/article/details/5347098

3.3 索引維護

這部分內容包括：

（1）索引的選擇性： distinct/rows, 接近與1，選擇性越高，直方圖--》數據傾斜。

（2）索引的擴展：index segment 是由extents組成，如果extents大於10，可以考慮重建索引。

（3）索引碎片：查詢index_stats表以確定索引中刪除的、未填滿的葉子（Leaf）行的百分比和 height 字段。如果索引的葉子行的碎片超過10%，或者 index_stats中height > =4, 可以考慮對索引進行重建。

select name,height, del_lf_rows, lf_rows,round((del_lf_rows/(lf_rows+0.0000000001))*100) "Frag Percent" from index_stats

具體參考：

索引維護：

http://blog.csdn.net/tianlesoftware/article/details/5680706

3.4 索引的 Clustering Factor 參數

這個參數是個神奇的參數，先看一種情況，有的人應該遇到過，就是表的字段上有索引，但根據這個字段做查詢時，卻發現Oracle並沒有使用索引？並且查詢條件沒有限制索引。那麼Oracle 爲什麼不走索引？很可能就是和這個參數值有關。

可以從dba_indexes 表裏查看到每個具體對象的Clustering Factor值：

select owner,index_name, clustering_factor, num_rows from dba_indexes whereowner='SYS' and index_name='IDX_T_ID';

該參數反應的是數據在物理block的上的連續性，如果該值接近於對象的block數，那麼數據在block上的存儲就是有序的，如果接近與表的行數，可以反應出數據的存儲無序。

當數據有序時，我們查詢一個數據時，可以從一個block裏一次性讀出，如果無序，那麼我們可能就需要讀取多個block，這樣I/O次數增加，CBO 就會認爲這種代價更大，從而選擇全表掃描來代替索引。從而導致即使有索引，也不會走。

但是隨着系統使用時間的越長，Clustering Factor值是會越來越大的。解決這個問題的唯一方法就是對錶進行move。

具體參考：

Oracle Index Clustering Factor 說明

http://blog.csdn.net/tianlesoftware/article/details/6585453

3.5 索引掃描5種類型：

（1）index unique scan：查詢結果返回一行記錄

（2）index range scan：查詢結果返回多行記錄。

（3）index full scan：可能進行全Oracle索引掃描而不是範圍掃描，需要注意的是全Oracle索引掃描只在CBO模式下才有效。 CBO根據統計數值得知進行全Oracle索引掃描比進行全表掃描更有效時，才進行全Oracle索引掃描，而且此時查詢出的數據都必須從索引中可以直接得到。

（4）index fast full scan：與 index full scan很類似，但是一個顯著的區別就是它不對查詢出的數據進行排序，即數據不是以排序順序被返回。在這種存取方法中，可以使用多塊讀功能，也可以使用並行讀入，以便獲得最大吞吐量與縮短執行時間。

（5）index skip scan： INDEX SKIP SCAN，發生在多個列建立的複合索引上，如果SQL中謂詞條件只包含索引中的部分列，並且這些列不是建立索引時的第一列時，就可能發生INDEX SKIP SCAN。這裏SKIP的意思是因爲查詢條件沒有第一列或前面幾列，被忽略了。

具體參考：

Oracle 索引掃描的五種類型

http://blog.csdn.net/tianlesoftware/article/details/5852106

四.綁定變量

這個也是SQL 編寫的基本功. 簡單的說，使用綁定變量可以避免進行硬解析，減少對資源的消耗。

Oracle裏的所有SQL 語句都是implicitly sharable的。 SQL 在執行之前，要通過一個hash 運算，生成相關的cursor。如果通過hash 運算之後，發現已經了有對應的cursor，那就可以直接使用之前的cursor 和plan。如果不存在，就需要進行硬解析，而硬解析是一個非常耗資源的操作。需要儘量減少硬解析。

如何保證每次HASH 運算之後的hash 值都一樣，那麼這就需要通過綁定變來來實現。

在第一次執行執行SQL 之後，如果使用了綁定變量，那麼Oracle 在硬解析的時候，會進行一個叫Peek的操作。也可以稱爲偷窺。就是把實際值帶進去，幫助產生更加準確的執行計劃。比如對應的Peek列上有嚴重的數據傾斜，假設我們已經對錶進行了統計信息收集，oracle 會產生該列的直方圖（histogram），在peek的時候，就會根據直方圖來決定，是走索引還是走全表掃描更划算。

因此第一執行產生的執行計劃肯定是最優的。現在假設數據傾斜有2個值，一個佔90%，一個佔10%。我們第一使用10%的值，所以第一次走索引。那麼如果我們以後在綁定時，使用了90%的值，那麼這時候，Oracle 還是會使用之前的cursor，繼續走索引，此時走索引就不是最優的了。

這個就是Oracle 10g裏綁定變量的一個問題。在第一次硬解析之後，以後所有的操作都會使用之前產生的cursor 和plan。所以在10g裏，對於列上有嚴重數據傾斜的，最好是不採用綁定變量。

在Oracle 11g裏，對這個問題，進行了優化，使用了Adaptive Cursor Sharing，它可以產生多個共享cursor。如果是90%的值，就使用cursor 1，如果是10%的cursor，就使用corsor 2. 在這個轉換的過程中還是有可能再次產生硬解析。

Oracle 11g的綁定變量處理過程如下：

當我們第一去執行一個帶有綁定變量的SQL時，Oracle 會進行硬解析，但是硬解析不能確定最優的執行計劃，所以這時候有了Peek。也可以說是偷窺，即把實際值帶入，來生成一個selectivity estimate。然後來選擇最優的一個執行計劃來執行。

這是第一次執行SQL語句。以後執行時就會使用已經存在的plan和cursor。 Oracle 通過Adaptive Cursor Sharing特性允許同一個SQL 可以使用多個執行計劃。

在每次執行時，Oracle會根據Peek 的selectivity estimate 值和直方圖（如果存在）來判斷已經存在的cursor 是否是最優的，如果不是，就重新創建一個child cursor，並講Bind-Sensitive 標記爲Y。

而且Oracle在SQL 每次執行時，都會收集相關的統計信息，然後根據統計信息進行判斷，如果比上次的更好，就在創建一個child cursor，並將Bind-Aware 標記爲Y。

當標記爲bind-aware cursor 的cursor在下次執行時，Oracle根據新的bind value 來生成新的plan和cursor，並將原來的cursor標記爲非共享，即V$SQL.IS_SHAREABLE 設置爲 N，當這種cursor 長期不被使用時，就會被移出shared SQL area.

在bind-aware cursor創建新的cursor 之後，如果這個cursor 和之前某個存在的cursor一樣，那麼Oracle 會對他們進行合併。

如果在cache裏不能找到bind-aware對應的plan，那麼就會重新進行一次硬解析，來生成plan 和cursor，如果這個plan 以後被新的cursor 使用，那麼Oracle 會將這2個cursor 進行合併。

Oracle 綁定變量詳解

http://blog.csdn.net/tianlesoftware/article/details/5856430

Oracle 綁定變量示例

http://blog.csdn.net/tianlesoftware/article/details/6324243

Oracle 10g 與 11g 綁定變量（Bind Variable）區別說明

http://blog.csdn.net/tianlesoftware/article/details/6591222

對於綁定變量的cursor 能否重用，與Cursor_sharing 參數有很大關係。具體參考：

Oracle cursor_sharing 參數詳解

http://blog.csdn.net/tianlesoftware/article/details/6551723

Oracle Library cache 內部機制說明