位圖數據結構
該數據結構描述了一個有限定義域內的稠密集合,其中的每一個元素最多出現一次並且沒有其他任何數據與該元素相關聯。即使這些條件沒有完全滿足(例如,存在重複元素或額外的數據),也可以用有限定義域內的鍵作爲一個表項更復雜的表格索引。
1.什麼是bitmap?
所謂的Bit-map就是用一個bit位來標記某個元素對應的Value, 而Key即是該元素。由於採用了Bit爲單位來存儲數據,因此在存儲空間方面,可以大大節省。
2.舉個例子
如果說了這麼多還沒明白什麼是Bit-map,那麼我們來看一個具體的例子,假設我們要對0-7內的5個元素(4,7,2,5,3)排序(這裏假設這些元素沒有重複)。那麼我們就可以採用Bit-map的方法來達到排序的目的。要表示8個數,我們就只需要8個Bit(1Bytes),首先我們開闢1Byte的空間,將這些空間的所有Bit位都置爲0,如下圖:
然後遍歷這5個元素,首先第一個元素是4,那麼就把4對應的位置爲1(可以這樣操作 p+(i/8)|(0×01<<(i%8)) 當然了這裏的操作涉及到Big-ending和Little-ending的情況,這裏默認爲Big-ending),因爲是從零開始的,所以要把第五位置爲1,如下圖:
然後再處理第二個元素7,將第八位置爲1,,接着再處理第三個元素,一直到最後處理完所有的元素,將相應的位置爲1,這時候的內存的Bit位的狀態如下:
然後我們現在遍歷一遍Bit區域,將該位是一的位的編號輸出(2,3,4,5,7),這樣就達到了排序的目的。下面的代碼給出了一個BitMap的用法:排序。
位圖的操作
在C/C++中int類型有4個字節,也就是32位。當我們有1000萬條不同數據時,我們只需要1000萬個位來表示,也就是10000000/(8*1024*1024)MB,大約爲1.25MB。
我們可以用一個unsigned int類型的數組或者向量來表示位圖,假設我們定義vector<unsigned int> a,則 第i位可表示爲a[i/32]的i%32位(其中,32*N+r = i,r爲i%32,也就是i/32的餘數)。
由於計算機對位的操作比乘除法更有效率,這裏計算i/32可以用位移操作:i>>5;計算i%32可以用1&31(大家可以自己嘗試一下)。
1.set
將位圖中的第i位設置爲1,即把a[i/32]的第(i%32)位設置爲1。定義pos = 1<<31,表示32位中的第一位爲1,其餘位爲0,將pos右移(i%32)位即能將相應bit置爲1。
a[i>>5] |= (pos>>( i & 31))
2.get
判斷位圖的第i位是否爲1
return a[i>>5] & (pos>>(i & 31));
得到的值大於0 ,則說明該位值爲1,否則爲0。
3.clear
將位圖中的第i位設置爲0
a[i>>shift] &= ~(pos>>(i & mask));
4.實現代碼
#include<iostream>
#include<vector>
using namespace std;
class BitMap {
public:
BitMap(int num):n(num),mask(0x1F),shift(5),pos(1<<mask),a(1+n/32,0){}
void set(int i) {
a[i>>shift] |= (pos>>(i & mask));
}
int get(int i) {
return a[i>>shift] & (pos>>(i & mask));
}
void clr(int i) {
a[i>>shift] &= ~(pos>>(i & mask));
}
private:
int n;
const int mask;
const int shift;
const unsigned int pos;
vector<unsigned int> a;
};
int main() {
BitMap bitmap(100);
bitmap.set(27);
bitmap.set(29);
bitmap.set(131);
int res = bitmap.get(27);
cout<<res<<endl;
return 0;
}
參考資料
1. 《編程珠璣》第1章 習題2
2. 海量數據處理面試題集錦