位圖排序是一種效率極高(複雜度可達O(n))並且很節省空間的一種排序方法,但是這種排序方法對輸入的數據是有比較嚴格的要求(數據不能重複,大致知道數據的範圍)。位圖排序即利用位圖或者位向量來表示集合。舉個例子,假如有一個集合{3,5,7,8,2,1},我們可以用一個8位的二進制向量set[1-8]來表示該集合,如果數據存在,則將set相對應的二進制位置1,否則置0.根據給出的集合得到的set爲{1,1,1,0,1,0,1,1},然後再根據set集合的值輸出對應的下標即可得到集合{3,5,7,8,2,1}的排序結果。這個就是位圖排序的原理。
一.位圖排序的應用:
1.給40億個不重複的unsigned int的整數,沒有排過序,然後再給一個數,如果快速判斷這個數是否在那40億個數當中。
因爲unsigned int數據的最大範圍在在40億左右,40*10^8/1024*1024*8=476,因此只需申請512M的內存空間,每個bit位表示一個unsigned int。讀入40億個數,並設置相應的bit位爲1.然後讀取要查詢的數,查看該bit是否爲1,是1則存在,否則不存在。
2.給40億個unsigned int的整數,如何判斷這40億個數中哪些數重複?
同理,可以申請512M的內存空間,然後讀取40億個整數,並且將相應的bit位置1。如果是第一次讀取某個數據,則在將該bit位置1之前,此bit位必定是0;如果是第二次讀取該數據,則可根據相應的bit位是否爲1判斷該數據是否重複。
二.位圖排序的實現
由於在C語言中沒有bit這種數據類型,因此必須通過位操作來實現。
假如有若干個不重複的正整數,範圍在[1-100]之間,因此可以申請一個int數組,int數組大小爲100/32+1。
假如有數據32,則應該將邏輯下標爲32的二進制位置1,這個邏輯位置在A[1]的最低位(第0位)。
因此要進行置1位操作,必須先確定邏輯位置:字節位置(數組下標)和位位置。
字節位置=數據/32;(採用位運算即右移5位)
位位置=數據%32;(採用位運算即跟0X1F進行與操作)。
其他操作如清0和判斷兩個操作類似。
C語言實現程序:
/*位圖排序 2011.10.18*/ #include <stdio.h> #define MAX 1000000 #define SHIFT 5 #define MASK 0x1F #define DIGITS 32 int a[1+MAX/DIGITS]; void set(int n) //將邏輯位置爲n的二進制位置爲1 { a[n>>SHIFT]=a[n>>SHIFT]|(1<<(n&MASK)); //n>>SHIFT右移5位相當於除以32求算字節位置,n&MASK相當於對32取餘即求位位置, } //然後將1左移的結果與當前數組元素進行或操作,相當於將邏輯位置爲n的二進制位置1. void clear(int n) { a[n>>SHIFT]=a[n>>SHIFT]&(~(1<<(n&MASK))); //將邏輯位置爲n的二進制位置0,原理同set操作 } int test(int n) { return a[n>>SHIFT] & (1<<(n&MASK)); //測試邏輯位置爲n的二進制位是否爲1 } int main(int argc, char *argv[]) { int i,n; for(i=1;i<=MAX;i++) { clear(i); } while(scanf("%d",&n)!=EOF) { set(n); } for(i=1;i<=MAX;i++) { if(test(i)) printf("%d ",i); } return 0; }
在C++中提供了bitset這種集合,專門用來進行位操作,因此實現起來比較容易
C++版本:
/*位圖排序C++STL實現 2011.10.19*/ #include <iostream> #include<bitset> #define MAX 1000000 using namespace std; bitset<MAX+1> bit; //聲明一個有(MAX+1)個二進制位的bitset集合,初始默認所有二進制位爲0 int main(int argc, char *argv[]) { int n,i; while(scanf("%d",&n)!=EOF) { bit.set(n,1); //將第n位置1 } for(i=0;i<=MAX+1;i++) { if(bit[i]==1) printf("%d ",i); } return 0; }