爲數據庫建立索引

最普通的情況，是爲出現在where子句的字段建一個索引。爲方便講述，我們先建立一個如下的表。
CREATE TABLE mytable (
　id serial primary key,
　category_id int not null default 0,
　user_id int not null default 0,
　adddate int not null default 0
);
如果你在查詢時常用類似以下的語句：
　SELECT * FROM mytable WHERE category_id=1;
最直接的應對之道，是爲category_id建立一個簡單的索引：
　CREATE INDEX mytable_categoryid
　ON mytable (category_id);
OK.如果你有不止一個選擇條件呢？例如：
　SELECT * FROM mytable WHERE category_id=1 AND user_id=2;
你的第一反應可能是，再給user_id建立一個索引。不好，這不是一個最佳的方法。你可以建立多重的索引。
CREATE INDEX mytable_categoryid_userid ON mytable (category_id,user_id);
注意到我在命名時的習慣了嗎？我使用"表名_字段1名_字段2名"的方式。你很快就會知道我爲什麼這樣做了。
現在你已經爲適當的字段建立了索引，不過，還是有點不放心吧，你可能會問，數據庫會真正用到這些索引嗎？測試一下就OK，對於大多數的數據庫來說，這是很容易的，只要使用EXPLAIN命令：
EXPLAIN
　SELECT * FROM mytable
WHERE category_id=1 AND user_id=2;
　This is what Postgres 7.1 returns (exactly as I expected)
　NOTICE: QUERY PLAN:
　Index Scan using mytable_categoryid_userid on
　mytable (cost=0.00..2.02 rows=1 width=16)
EXPLAIN
以上是postgres的數據，可以看到該數據庫在查詢的時候使用了一個索引（一個好開始），而且它使用的是我創建的第二個索引。看到我上面命名的好處了吧，你馬上知道它使用適當的索引了。

接着，來個稍微複雜一點的，如果有個ORDER BY字句呢？不管你信不信，大多數的數據庫在使用order by的時候，都將會從索引中受益。
　SELECT * FROM mytable
WHERE category_id=1 AND user_id=2
　ORDER BY adddate DESC;

很簡單，就象爲where字句中的字段建立一個索引一樣，也爲ORDER BY的字句中的字段建立一個索引：
　CREATE INDEX mytable_categoryid_userid_adddate
　ON mytable (category_id,user_id,adddate);
　注意: "mytable_categoryid_userid_adddate" 將會被截短爲
"mytable_categoryid_userid_addda"
　CREATE
　EXPLAIN SELECT * FROM mytable
WHERE category_id=1 AND user_id=2
　ORDER BY adddate DESC;
　NOTICE: QUERY PLAN:
　Sort (cost=2.03..2.03 rows=1 width=16)
-> Index Scan using mytable_categoryid_userid_addda
　on mytable (cost=0.00..2.02 rows=1 width=16)
　EXPLAIN
看看EXPLAIN的輸出，數據庫多做了一個我們沒有要求的排序，這下知道性能如何受損了吧，看來我們對於數據庫的自身運作是有點過於樂觀了，那麼，給數據庫多一點提示吧。
爲了跳過排序這一步，我們並不需要其它另外的索引，只要將查詢語句稍微改一下。這裏用的是postgres，我們將給該數據庫一個額外的提示--在ORDER BY語句中，加入where語句中的字段。這只是一個技術上的處理，並不是必須的，因爲實際上在另外兩個字段上，並不會有任何的排序操作，不過如果加入，postgres將會知道哪些是它應該做的。
　EXPLAIN SELECT * FROM mytable
WHERE category_id=1 AND user_id=2
　ORDER BY category_id DESC,user_id DESC,adddate DESC;
　NOTICE: QUERY PLAN:
　Index Scan Backward using
mytable_categoryid_userid_addda on mytable
　(cost=0.00..2.02 rows=1 width=16)
　EXPLAIN
現在使用我們料想的索引了，而且它還挺聰明，知道可以從索引後面開始讀，從而避免了任何的排序。
以上說得細了一點，不過如果你的數據庫非常巨大，並且每日的頁面請求達上百萬算，我想你會獲益良多的。不過，如果你要做更爲複雜的查詢呢，例如將多張表結合起來查詢，特別是where限制字句中的字段是來自不止一個表格時，應該怎樣處理呢？我通常都儘量避免這種做法，因爲這樣數據庫要將各個表中的東西都結合起來，然後再排除那些不合適的行，搞不好開銷會很大。
如果不能避免，你應該查看每張要結合起來的表，並且使用以上的策略來建立索引，然後再用EXPLAIN命令驗證一下是否使用了你料想中的索引。如果是的話，就OK。不是的話，你可能要建立臨時的表來將他們結合在一起，並且使用適當的索引。
要注意的是，建立太多的索引將會影響更新和插入的速度，因爲它需要同樣更新每個索引文件。對於一個經常需要更新和插入的表格，就沒有必要爲一個很少使用的where字句單獨建立索引了，對於比較小的表，排序的開銷不會很大，也沒有必要建立另外的索引。
以上介紹的只是一些十分基本的東西，其實裏面的學問也不少，單憑EXPLAIN我們是不能判定該方法是否就是最優化的，每個數據庫都有自己的一些優化器，雖然可能還不太完善，但是它們都會在查詢時對比過哪種方式較快，在某些情況下，建立索引的話也未必會快，例如索引放在一個不連續的存儲空間時，這會增加讀磁盤的負擔，因此，哪個是最優，應該通過實際的使用環境來檢驗。
在剛開始的時候，如果表不大，沒有必要作索引，我的意見是在需要的時候才作索引，也可用一些命令來優化表，例如MySQL可用"OPTIMIZE TABLE"。
綜上所述，在如何爲數據庫建立恰當的索引方面，你應該有一些基本的概念了。