位圖索引BitMap

位圖(BitMap)索引

  前段時間聽同事分享,偶爾講起Oracle數據庫的位圖索引,頓時大感興趣。說來慚愧,在這之前對位圖索引一無所知,因此趁此機會寫篇博文介紹下位圖索引。

1. 案例

  有張表名爲table的表,由三列組成,分別是姓名、性別和婚姻狀況,其中性別只有男和女兩項,婚姻狀況由已婚、未婚、離婚這三項,該表共有100w個記錄。現在有這樣的查詢:     select * from table where Gender=‘男’ and Marital=“未婚”;

姓名(Name)

性別(Gender)

婚姻狀況(Marital)

張三

已婚

李四

已婚

王五

未婚

趙六

離婚

孫七

未婚

...

...

...

 

1)不使用索引

  不使用索引時,數據庫只能一行行掃描所有記錄,然後判斷該記錄是否滿足查詢條件。

2)B樹索引

  對於性別,可取值的範圍只有'男','女',並且男和女可能各站該表的50%的數據,這時添加B樹索引還是需要取出一半的數據, 因此完全沒有必要。相反,如果某個字段的取值範圍很廣,幾乎沒有重複,比如身份證號,此時使用B樹索引較爲合適。事實上,當取出的行數據佔用表中大部分的數據時,即使添加了B樹索引,數據庫如oracle、mysql也不會使用B樹索引,很有可能還是一行行全部掃描。

2. 位圖索引出馬

如果用戶查詢的列的基數非常的小, 即只有的幾個固定值,如性別、婚姻狀況、行政區等等。要爲這些基數值比較小的列建索引,就需要建立位圖索引。

對於性別這個列,位圖索引形成兩個向量,男向量爲10100...,向量的每一位表示該行是否是男,如果是則位1,否爲0,同理,女向量位01011。

RowId

1

2

3

4

5

...

1

0

1

0

0

 

0

1

0

1

1

 

 

  對於婚姻狀況這一列,位圖索引生成三個向量,已婚爲11000...,未婚爲00100...,離婚爲00010...。

RowId

1

2

3

4

5

...

已婚

1

1

0

0

0

 

未婚

0

0

1

0

1

 

離婚

0

0

0

1

0

 

   當我們使用查詢語句“select * from table where Gender=‘男’ and Marital=“未婚”;”的時候 首先取出男向量10100...,然後取出未婚向量00100...,將兩個向量做and操作,這時生成新向量00100...,可以發現第三位爲1,表示該表的第三行數據就是我們需要查詢的結果。 

RowId

1

2

3

4

5

1

0

1

0

0

and

 

 

 

 

 

未婚

0

0

1

0

1

結果

0

0

1

0

0

3.位圖索引的適用條件

  上面講了,位圖索引適合只有幾個固定值的列,如性別、婚姻狀況、行政區等等,而身份證號這種類型不適合用位圖索引。

  此外,位圖索引適合靜態數據,而不適合索引頻繁更新的列。舉個例子,有這樣一個字段busy,記錄各個機器的繁忙與否,當機器忙碌時,busy爲1,當機器不忙碌時,busy爲0。

  這個時候有人會說使用位圖索引,因爲busy只有兩個值。好,我們使用位圖索引索引busy字段!假設用戶A使用update更新某個機器的busy值,比如update table set table.busy=1 where rowid=100;,但還沒有commit,而用戶B也使用update更新另一個機器的busy值,update table set table.busy=1 where rowid=12; 這個時候用戶B怎麼也更新不了,需要等待用戶A commit。

  原因:用戶A更新了某個機器的busy值爲1,會導致所有busy爲1的機器的位圖向量發生改變,因此數據庫會將busy=1的所有行鎖定,只有commit之後才解鎖。


轉載請標明源地址:http://www.cnblogs.com/LBSer


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章