桶排序－Bucket Sort

轉載：http://hxraid.iteye.com/blog/647759

從《基於比較的排序結構總結》中我們知道：全依賴“比較”操作的排序算法時間複雜度的一個下界O(N*logN)。但確實存在更快的算法。這些算法並不是不用“比較”操作，也不是想辦法將比較操作的次數減少到 logN。而是利用對待排數據的某些限定性假設，來避免絕大多數的“比較”操作。桶排序就是這樣的原理。

桶排序的基本思想

假設有一組長度爲N的待排關鍵字序列K[1….n]。首先將這個序列劃分成M個的子區間(桶) 。然後基於某種映射函數，將待排序列的關鍵字k映射到第i個桶中(即桶數組B的下標 i) ，那麼該關鍵字k就作爲B[i]中的元素(每個桶B[i]都是一組大小爲N/M的序列)。接着對每個桶B[i]中的所有元素進行比較排序(可以使用快排)。然後依次枚舉輸出B[0]….B[M]中的全部內容即是一個有序序列。

[桶—關鍵字]映射函數

bindex=f(key) 其中，bindex 爲桶數組B的下標(即第bindex個桶), k爲待排序列的關鍵字。桶排序之所以能夠高效，其關鍵在於這個映射函數，它必須做到：如果關鍵字k1 < k2，那麼f(k1)<=f(k2)。也就是說B(i)中的最小數據都要大於B(i-1)中最大數據。很顯然，映射函數的確定與數據本身的特點有很大的關係，我們下面舉個例子：

假如待排序列K= {49、 38 、 35、 97 、 76、 73 、 27、 49 }。這些數據全部在1—100之間。因此我們定製10個桶，然後確定映射函數f(k)=k/10。則第一個關鍵字49將定位到第4個桶中(49/10=4)。依次將所有關鍵字全部堆入桶中，並在每個非空的桶中進行快速排序後得到如下圖所示：

對上圖只要順序輸出每個B[i]中的數據就可以得到有序序列了。

桶排序代價分析

桶排序利用函數的映射關係，減少了幾乎所有的比較工作。實際上，桶排序的f(k)值的計算，其作用就相當於快排中劃分，已經把大量數據分割成了基本有序的數據塊(桶)。然後只需要對桶中的少量數據做先進的比較排序即可。

對N個關鍵字進行桶排序的時間複雜度分爲兩個部分：
(1) 循環計算每個關鍵字的桶映射函數，這個時間複雜度是O(N)。
(2) 利用先進的比較排序算法對每個桶內的所有數據進行排序，其時間複雜度爲 ∑ O(Ni*logNi) 。其中Ni 爲第i個桶的數據量。

很顯然，第(2)部分是桶排序性能好壞的決定因素。儘量減少桶內數據的數量是提高效率的唯一辦法(因爲基於比較排序的最好平均時間複雜度只能達到O(N*logN)了)。因此，我們需要儘量做到下面兩點：

(1) 映射函數f(k)能夠將N個數據平均的分配到M個桶中，這樣每個桶就有[N/M]個數據量。
(2) 儘量的增大桶的數量。極限情況下每個桶只能得到一個數據，這樣就完全避開了桶內數據的“比較”排序操作。當然，做到這一點很不容易，數據量巨大的情況下，f(k)函數會使得桶集合的數量巨大，空間浪費嚴重。這就是一個時間代價和空間代價的權衡問題了。

對於N個待排數據，M個桶，平均每個桶[N/M]個數據的桶排序平均時間複雜度爲：
O(N)+O(M*(N/M)log(N/M))=O(N+N(logN-logM))=O(N+N*logN-N*logM)
當N=M時，即極限情況下每個桶只有一個數據時。桶排序的最好效率能夠達到O(N)。

總結：桶排序的平均時間複雜度爲線性的O(N+C)，其中C=N*(logN-logM)。如果相對於同樣的N，桶數量M越大，其效率越高，最好的時間複雜度達到O(N)。當然桶排序的空間複雜度爲O(N+M)，如果輸入數據非常龐大，而桶的數量也非常多，則空間代價無疑是昂貴的。此外，桶排序是穩定的。

其實我個人還有一個感受：在查找算法中，基於比較的查找算法最好的時間複雜度也是O(logN)。比如折半查找、平衡二叉樹、紅黑樹等。但是Hash表卻有O(C)線性級別的查找效率(不衝突情況下查找效率達到O(1))。大家好好體會一下：Hash表的思想和桶排序是不是有一曲同工之妙呢?

桶排序在海量數據中的應用

一年的全國高考考生人數爲500 萬，分數使用標準分，最低100 ，最高900 ，沒有小數，你把這500 萬元素的數組排個序。

分析：對500W數據排序，如果基於比較的先進排序，平均比較次數爲O(5000000*log5000000)≈1.112億。但是我們發現，這些數據都有特殊的條件： 100=

實現代碼

#include<iostream.h>
#include<malloc.h>

typedef struct node{
    int key;
    struct node * next;
}KeyNode;

void inc_sort(int keys[],int size,int bucket_size){
    KeyNode **bucket_table=(KeyNode **)malloc(bucket_size*sizeof(KeyNode *));
    for(int i=0;i<bucket_size;i++){
        bucket_table[i]=(KeyNode *)malloc(sizeof(KeyNode));
        bucket_table[i]->key=0; //記錄當前桶中的數據量
        bucket_table[i]->next=NULL;
    }
    for(int j=0;j<size;j++){
        KeyNode *node=(KeyNode *)malloc(sizeof(KeyNode));
        node->key=keys[j];
        node->next=NULL;
        //映射函數計算桶號
        int index=keys[j]/10;
        //初始化P成爲桶中數據鏈表的頭指針
        KeyNode *p=bucket_table[index];
        //該桶中還沒有數據
        if(p->key==0){
            bucket_table[index]->next=node;
            (bucket_table[index]->key)++;
        }else{
            //鏈表結構的插入排序
            while(p->next!=NULL&&p->next->key<=node->key)
                p=p->next;
            node->next=p->next;
            p->next=node;
            (bucket_table[index]->key)++;
        }
    }
    //打印結果
    for(int b=0;b<bucket_size;b++)
        for(KeyNode *k=bucket_table[b]->next; k!=NULL; k=k->next)
            cout<<k->key<<" ";
    cout<<endl;
}  

void main(){  
    int raw[]={49,38,65,97,76,13,27,49};     
    int size=sizeof(raw)/sizeof(int);     
    inc_sort(raw,size,10);  
}

上面源代碼的桶內數據排序，我們使用了基於單鏈表的直接插入排序算法。可以使用基於雙向鏈表的快排算法提高效率。

桶排序－Bucket Sort

桶排序的基本思想

[桶—關鍵字]映射函數

桶排序代價分析

桶排序在海量數據中的應用

實現代碼

基於 Nginx Ingress + 雲效 AppStack 實現灰度發佈

12款高效開源Wiki系統推薦，打造團隊知識管理利器

C語言--右移左移

一個開源且全面的C#算法實戰教程

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

常用的 Git 指令

鼠標控制軟件有可能和虛擬機軟件產生衝突

sm4加密工具類

25匹馬5個跑道問題

桶排序－Bucket Sort

leetcode 81 : Search in Rotated Sorted Array II

leetcode 153 : Find Minimum in Rotated Sorted Array

冒泡排序－Bubble Sort

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結