sql語句優化

性能不理想的系統中除了一部分是因爲應用程序的負載確實超過了服務器的實際處理能力外,更多的是因爲系統存在大量的SQL語句需要優化。

爲了獲得穩定的執行性能,SQL語句越簡單越好。對複雜的SQL語句,要設法對之進行簡化。


常見的簡化規則如下:
 
1)不要有超過5個以上的表連接(JOIN)
2)考慮使用臨時表或表變量存放中間結果。
3)少用子查詢
4)視圖嵌套不要過深,一般視圖嵌套不要超過2個爲宜。
 

連接的表越多,其編譯的時間和連接的開銷也越大,性能越不好控制。

最好是把連接拆開成較小的幾個部分逐個順序執行。

優先執行那些能夠大量減少結果的連接。

拆分的好處不僅僅是減少SQL Server優化的時間,更使得SQL語句能夠以你可以預測的方式和順序執行。


如果一定需要連接很多表才能得到數據,那麼很可能意味着設計上的缺陷。

 


連接是outer join,非常不好。因爲outer join意味着必須對左表或右表查詢所有行。

如果表很大而沒有相應的where語句,那麼outer join很容易導致table scan或index scan。

要儘量使用inner join避免scan整個表。


優化建議:
 
1)使用臨時表存放t1表的結果,能大大減少logical reads(或返回行數)的操作要優先執行。

 仔細分析語句,你會發現where中的條件全是針對表t1的,所以直接使用上面的where子句查詢表t1,然後把結果存放再臨時表#t1中:
 
Select t1….. into #tt1 from t1 where…(和上面的where一樣)
 
2)再把#tt1和其他表進行連接:
 
Select #t1…
Left outer join …
Left outer join…
 
 
3)修改 like 程序,去掉前置百分號。like語句卻因爲前置百分號而無法使用索引
4)從系統設計的角度修改語句,去掉outer join。
5)考慮組合索引或覆蓋索引消除clustered index scan。
 
上面1和2點建議立即消除了worktable,性能提高了幾倍以上,效果非常明顯。

 

 

 

1)限制結果集
 
要儘量減少返回的結果行,包括行數和字段列數。

返回的結果越大,意味着相應的SQL語句的logical reads 就越大,對服務器的性能影響就越甚。

一個很不好的設計就是返回表的所有數據:
 
Select * from tablename
 
即使表很小也會導致併發問題。更壞的情況是,如果表有上百萬行的話,那後果將是災難性的。

它不但可能帶來極重的磁盤IO,更有可能把數據庫緩衝區中的其他緩存數據擠出,使得這些數據下次必須再從磁盤讀取。

必須設計良好的SQL語句,使得其有where語句或TOP語句來限制結果集大小。


2)合理的表設計
 
SQL Server 2005將支持表分區技術。利用表分區技術可以實現數據表的流動窗口功能。

在流動窗口中可以輕易的把歷史數據移出,把新的數據加入,從而使表的大小基本保持穩定。
 
另外,表的設計未必需要非常範式化。有一定的字段冗餘可以增加SQL語句的效率,減少JOIN的數目,提高語句的執行速度。


3)OLAP和OLTP模塊要分開
 
OLAP和OLTP類型的語句是截然不同的。前者往往需要掃描整個表做統計分析,索引對這樣的語句幾乎沒有多少用處。

索引只能夠加快那些如sum,group by之類的聚合運算。因爲這個原因,幾乎很難對OLAP類型的SQL語句進行優化。

而OLTP語句則只需要訪問表的很小一部分數據,而且這些數據往往可以從內存緩存中得到。

爲了避免OLAP 和OLTP語句相互影響,這兩類模塊需要分開運行在不同服務器上。

因爲OLAP語句幾乎都是讀取數據,沒有更新和寫入操作,所以一個好的經驗是配置一臺standby 服務器,然後OLAP只訪問standby服務器。


4)使用存儲過程
 
可以考慮使用存儲過程封裝那些複雜的SQL語句或商業邏輯,這樣做有幾個好處。

一是存儲過程的執行計劃可以被緩存在內存中較長時間,減少了重新編譯的時間。

二是存儲過程減少了客戶端和服務器的繁複交互。

三是如果程序發佈後需要做某些改變你可以直接修改存儲過程而不用修改程序,避免需要重新安裝部署程序。


 

 

 索引優化

 
 
 
 
很多數據庫系統性能不理想是因爲系統沒有經過整體優化,存在大量性能低下的SQL 語句。
 
這類SQL語句性能不好的首要原因是缺乏高效的索引。
 
沒有索引除了導致語句本身運行速度慢外,更是導致大量的磁盤讀寫操作,使得整個系統性能都受之影響而變差。
 
解決這類系統的首要辦法是優化這些沒有索引或索引不夠好的SQL語句。
 
 
 

創建索引的關鍵
 
 
優化SQL語句的關鍵是儘可能減少語句的logical reads。
 
 
這裏說的logical reads是指語句執行時需要訪問的單位爲8K的數據頁總數。
 
logical reads 越少,其需要的內存和CPU時間也就越少,語句執行速度就越快。
 

不言而喻,索引的最大好處是它可以極大減少SQL語句的logical reads數目,從而極大減少語句的執行時間。
 

創建索引的關鍵是索引要能夠大大減少語句的logical reads。一個索引好不好,主要看它減少的logical reads多不多。
 
運行set statistics io命令可以得到SQL語句的logical reads信息。
 
 

set statistics io on
select au_id,au_lname ,au_fname 
from pubs..authors where au_lname ='Green'
set statistics io on
 

如果Logical reads很大,而返回的行數很少,也即兩者相差較大,那麼往往意味者語句需要優化。
 

Logical reads中包含該語句從內存數據緩衝區中訪問的頁數和從物理磁盤讀取的頁數。
 

而physical reads表示那些沒有駐留在內存緩衝區中需要從磁盤讀取的數據頁。
 

Read-ahead reads是SQL Server爲了提高性能而產生的預讀。預讀可能會多讀取一些數據。 
 

優化的時候我們主要關注Logical Reads就可以了。
 

注意如果physical Reads或Read-ahead reads很大,那麼往往意味着語句的執行時間(duration)裏面會有一部分耗費在等待物理磁盤IO上。
 
 
 
 

二、單字段索引,組合索引和覆蓋索引
 

單字段索引是指只有一個字段的索引,而組合索引指有多個字段構成的索引。
 

1. 對出現在where子句中的字段加索引
 

set statistics profile on
set statistics io on
go
select .... from tb where ...
go
set statistics profile off
set statistics io off
 

set statistics profile命令將輸出語句的執行計劃。
 

也許你會問,爲什麼不用SET SHOWPLAN_ALL呢?使用SET SHOWPLAN_ALL也是可以的。
 

不過set statistics profile輸出的是SQL 語句的運行時候真正使用的執行計劃,
 

而SET SHOWPLAN_ALL輸出的是預計(Estimate)的執行計劃。
 

使用SET SHOWPLAN_ALL是後面的語句並不會真正運行。
 
 
 

用了Table Scan,也就是對整個表進行了全表掃描。全表掃描的性能通常是很差的,要儘量避免。
 

如果上面的select語句是數據庫系統經常運行的關鍵語句, 那麼應該對它創建相應的索引。
 

創建索引的技巧之一是對經常出現在where條件中的字段創建索引
 

Table Scan也變成了Index Seek,性能極大提高
 

設法避免Table scan或Index scan是優化SQL 語句使用的常用技巧。通常Index Seek需要的logical reads比前兩者要少得多。
 
 
 
 
 
 

2.組合索引
 
如果where語句中有多個字段,那麼可以考慮創建組合索引。
 

組合索引中字段的順序是非常重要的,越是唯一的字段越是要靠前。
 

另外,無論是組合索引還是單個列的索引,儘量不要選擇那些唯一性很低的字段。
 

比如說,在只有兩個值0和1的字段上建立索引沒有多大意義。
 
 
 

所以如果對單字段進行索引,建議使用set statistics profile來驗證索引確實被充分使用。logical reads越少的索引越好。
 
 
 

3.覆蓋索引
 

覆蓋索引能夠使得語句不需要訪問表僅僅訪問索引就能夠得到所有需要的數據。
 

因爲聚集索引葉子節點就是數據所以無所謂覆蓋與否,所以覆蓋索引主要是針對非聚集索引而言。

執行計劃中除了index seek外,還有一個Bookmark Lookup關鍵字。
 
 
Bookmark Lookup表示語句在訪問索引後還需要對錶進行額外的Bookmark Lookup操作才能得到數據。
 

也就是說爲得到一行數據起碼有兩次IO,一次訪問索引,一次訪問基本表。
 

如果語句返回的行數很多,那麼Bookmark Lookup操作的開銷是很大的。
 

覆蓋索引能夠避免昂貴的Bookmark Lookup操作,減少IO的次數,提高語句的性能。
 

覆蓋索引需要包含select子句和WHERE子句中出現的所有字段。Where語句中的字段在前面,select中的在後面。
 

logical reads,是大大減少了。Bookmark Lookup操作也消失了。所以創建覆蓋索引是減少logical reads提升語句性能的非常有用的優化技巧。
 
 
 

實際上索引的創建原則是比較複雜的。有時候你無法在索引中包含了Where子句中所有的字段。
 

在考慮索引是否應該包含一個字段時,應考慮該字段在語句中的作用。
 

比如說如果經常以某個字段作爲where條件作精確匹配返回很少的行,那麼就絕對值得爲這個字段建立索引。
 

再比如說,對那些非常唯一的字段如主鍵和外鍵,經常出現在group by,order by中的字段等等都值得創建索引。
 
 
 
 
 
 

問題1,是否值得在identity字段上建立聚集索引。
 

答案取決於identity 字段如何在語句中使用。如果你經常根據該字段搜索返回很少的行,那麼在其上建立索引是值得的。
 

反之如果identity字段根本很少在語句中使用,那麼就不應該對其建立任何索引。
 

 
問題2,一個表應該建立多少索引合適。
 

如果表的80%以上的語句都是讀操作,那麼索引可以多些。但是不要太多。
 

特別是不要對那些更新頻繁的表其建立很多的索引。很少表有超過5個以上的索引。
 

過多的索引不但增加其佔用的磁盤空間,也增加了SQL Server 維護索引的開銷。
 

 
問題4:爲什麼SQL Server 在執行計劃中沒有使用你認爲應該使用的索引?原因是多樣的。
 

一種原因是該語句返回的結果超過了表的20%數據,使得SQL Server 認爲scan比seek更有效。
 
另一種原因可能是表字段的statistics過期了,不能準確反映數據的分佈情況。
 

你可以使用命令UPDATE STATISTICS tablename with FULLSCAN來更新它。
 

只有同步的準確的statistics才能保證SQL Server 產生正確的執行計劃。
 

過時的老的statistics常會導致SQL Server生成不夠優化的甚至愚蠢的執行計劃。
 

所以如果你的表頻繁更新,而你又覺得和之相關的SQL語句運行緩慢,不妨試試UPDATE STATISTIC with FULLSCAN 語句。

問題5、什麼使用聚集索引,什麼時候使用非聚集索引
 
在SQL Server 中索引有聚集索引和非聚集索引兩種。它們的主要差別是前者的索引葉子就是數據本身,而後者的葉子節點包含的是指向數據的書籤(即數據行號或聚集索引的key)。
 
 
對一個表而言聚集索引只能有一個,而非聚集索引可以有多個。
 
 
 
只是聚集索引沒有Bookmark Lookup操作。
 
 
什麼時候應該使用聚集索引?  什麼時候使用非聚集索引? 取決於應用程序的訪問模式。
 
 
我的建議是在那些關鍵的字段上使用聚集索引。一個表一般都需要建立一個聚集索引。
 
 
對於什麼時候使用聚集索引,SQL Server 2000聯機手冊中有如下描述:
 
在創建聚集索引之前,應先了解您的數據是如何被訪問的。可考慮將聚集索引用於:
 
 
包含大量非重複值的列。
 
 
使用下列運算符返回一個範圍值的查詢:BETWEEN、>、>=、< 和 <=。
 
 
被連續訪問的列。
 
 
返回大型結果集的查詢。
 
 
經常被使用聯接或 GROUP BY 子句的查詢訪問的列;一般來說,這些是外鍵列。
 
 
對 ORDER BY 或 GROUP BY 子句中指定的列進行索引,可以使 SQL Server 不必對數據進行排序,因爲這些行已經排序。這樣可以提高查詢性能。
 
 
OLTP 類型的應用程序,這些程序要求進行非常快速的單行查找(一般通過主鍵)。應在主鍵上創建聚集索引。
 
 
 
聚集索引不適用於:
 
 
頻繁更改的列
 
 
這將導致整行移動(因爲 SQL Server 必須按物理順序保留行中的數據值)。這一點要特別注意,因爲在大數據量事務處理系統中數據是易失的。
 
 
寬鍵
 
  
來自聚集索引的鍵值由所有非聚集索引作爲查找鍵使用,因此存儲在每個非聚集索引的葉條目內。
 

 
總結:
 
 
如何使一個性能緩慢的系統運行更快更高效,不但需要整體分析數據庫系統,找出系統的性能瓶頸,更需要優化數據庫系統發出的SQL 語句。
 
一旦找出關鍵的SQL 語句並加與優化,性能問題就會迎刃而解。


 
發佈了77 篇原創文章 · 獲贊 11 · 訪問量 24萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章