【算法探祕】位圖排序

原創

2020-02-25 22:17

位圖排序是一種效率極高(複雜度可達O(n))並且很節省空間的一種排序方法，但是這種排序方法對輸入的數據是有比較嚴格的要求(數據不能重複，大致知道數據的範圍)。位圖排序即利用位圖或者位向量來表示集合。舉個例子，假如有一個集合{3,5,7,8,2,1}，我們可以用一個8位的二進制向量set[1-8]來表示該集合，如果數據存在，則將set相對應的二進制位置1，否則置0.根據給出的集合得到的set爲{1,1,1,0,1,0,1,1}，然後再根據set集合的值輸出對應的下標即可得到集合{3,5,7,8,2,1}的排序結果。這個就是位圖排序的原理。

一.位圖排序的應用：

1.給40億個不重複的unsigned int的整數，沒有排過序，然後再給一個數，如果快速判斷這個數是否在那40億個數當中。

因爲unsigned int數據的最大範圍在在40億左右，40*10^8/1024*1024*8=476，因此只需申請512M的內存空間，每個bit位表示一個unsigned int。讀入40億個數，並設置相應的bit位爲1.然後讀取要查詢的數，查看該bit是否爲1，是1則存在，否則不存在。

2.給40億個unsigned int的整數，如何判斷這40億個數中哪些數重複？

同理，可以申請512M的內存空間，然後讀取40億個整數，並且將相應的bit位置1。如果是第一次讀取某個數據，則在將該bit位置1之前，此bit位必定是0；如果是第二次讀取該數據，則可根據相應的bit位是否爲1判斷該數據是否重複。

二.位圖排序的實現

由於在C語言中沒有bit這種數據類型，因此必須通過位操作來實現。

假如有若干個不重複的正整數，範圍在[1-100]之間，因此可以申請一個int數組，int數組大小爲100/32+1。

假如有數據32，則應該將邏輯下標爲32的二進制位置1，這個邏輯位置在A[1]的最低位(第0位)。

因此要進行置1位操作，必須先確定邏輯位置：字節位置(數組下標)和位位置。

字節位置=數據/32;(採用位運算即右移5位)

位位置=數據%32;(採用位運算即跟0X1F進行與操作)。

其他操作如清0和判斷兩個操作類似。

C語言實現程序:

/*位圖排序 2011.10.18*/ 
#include <stdio.h>
#define MAX 1000000
#define SHIFT 5           
#define MASK 0x1F
#define DIGITS 32
int a[1+MAX/DIGITS];

void set(int n)     //將邏輯位置爲n的二進制位置爲1 
{
    a[n>>SHIFT]=a[n>>SHIFT]|(1<<(n&MASK));     //n>>SHIFT右移5位相當於除以32求算字節位置，n&MASK相當於對32取餘即求位位置，
}                                              //然後將1左移的結果與當前數組元素進行或操作，相當於將邏輯位置爲n的二進制位置1.  

void clear(int n)
{
    a[n>>SHIFT]=a[n>>SHIFT]&(~(1<<(n&MASK)));   //將邏輯位置爲n的二進制位置0，原理同set操作 
}

int test(int n)
{
    return a[n>>SHIFT] & (1<<(n&MASK));        //測試邏輯位置爲n的二進制位是否爲1 
}

int main(int argc, char *argv[])
{
    int i,n;
    for(i=1;i<=MAX;i++)
    {
        clear(i);
    }    
    while(scanf("%d",&n)!=EOF)
    {
        set(n);
    }
    for(i=1;i<=MAX;i++)
    {
        if(test(i))
            printf("%d ",i);
    }
    return 0;
}

在C++中提供了bitset這種集合，專門用來進行位操作，因此實現起來比較容易

C++版本：

/*位圖排序C++STL實現 2011.10.19*/ 
#include <iostream>
#include<bitset> 
#define MAX 1000000
using namespace std;

bitset<MAX+1> bit;        //聲明一個有(MAX+1)個二進制位的bitset集合，初始默認所有二進制位爲0 

int main(int argc, char *argv[])
{
    int n,i;
    while(scanf("%d",&n)!=EOF)
    {
        bit.set(n,1);          //將第n位置1               
    }    
    for(i=0;i<=MAX+1;i++)
    {
        if(bit[i]==1)
            printf("%d ",i);
    }
    return 0;
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【算法探祕】位圖排序

【項目管理】SVN服務器的搭建

【編程語言】SGI STL中的hash_map淺析

【性能分析】初探VS2010中的Profile（性能剖析）功能

【編程語言】如何解決菱形繼承問題

【系統運維】關於內存對齊

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結