在一個由n個元素組成的集合中,第i個順序統計量(order statistic)即爲該集合中第i小的元素。當i=1時,即爲最小值;當i=n時,即爲最大值;當i=L(n+1)/2」時,即爲中位數(median)。求第i個順序統計量可以定義爲形式化的定義爲選擇問題(selection problem):
輸入:一個包含n個(不同的)的書的集合A和一個數i,1≤i≤n
輸出:元素x∈A,它恰大於A中其他的i-1個元素
該問題可以通過排序在O(nlgn)時間內解決,但是該問題可以在線性時間內求解。
方法一(以期望線性時間做選擇):
類似快速排序的思想,隨機選擇主元對輸入數組進行遞歸劃分。然後對劃分的一邊進行處理即可(快速排序需要處理兩邊)。僞代碼如下:
性能分析:
假設E(T(n)) ≤ cn ,然後用數學歸納法證之。
方法二(最壞情況線性時間的選擇):
由於方法一隨機選取主元並不能保證每次是最好的選擇,但可以通過對輸入數組的遞歸劃分來保證每次對數組的劃分是一個好的劃分。步驟如下:
1)將輸入數組的n個元素劃分爲Ln/5」,每組5個元素,且至多隻有一組由剩下的n mod 5 個元素組成
2)尋找個組中的每一組的中位數。首先對每組中的元素進行插入排序,然後從排序過的序列中找出中位數。
3)對第2步中找出的箇中位數,遞歸調用SELECT以找出其中中位數 x
4)利用修改過的PARTITION過程,按中位數的中位數x對輸入的數組進行劃分,讓k比劃分低區的元素數目多1,所以x是第k小的元素,並且有n-k個元素在劃分的高區
5)如果i=k,則返回x;否則,如果i<k,則在低區遞歸調用SELECT以找出第i小的元素;如果i>k,則在高區中找第(i-k)個最小元素。
性能分析:
如圖,陰影區域表示大於x的元素
大於(或小於)x的元素個數至少爲:
在最後情況下,第5步中最多有7n/10+6個元素遞歸調用SELECT。
對於整個算法,可以得到遞歸式:
解得,
T(n)=O(n)
兩種方法完整代碼如下:
#include<iostream>
#include<cstdlib>
#include<ctime>
#include<climits>
#include<iomanip>
#define N 5
using namespace std;
void Print(int *A)
{
int n=A[0];
for(int i=1;i<=n;i++)
{
cout<<setw(5)<<A[i];
if(i%10==0)
cout<<endl;
}
cout<<endl;
}
void getTestData(int *A,int n)
{//generate random test data
srand((unsigned)time(NULL));
for(int i=1;i<=n;i++)
A[i]=rand()%100;
A[0]=n;
}
int *cpArr(int *a)
{
int n=a[0];
int *b=new int[n+1];
for(int i=1;i<=n;i++)
b[i]=a[i];
b[0]=n;
return b;
}
/*-----------------------Randomized select in expected linear time----------------------*/
void swap(int &a,int &b)
{
int temp;
temp=a;
a=b;
b=temp;
}
int Partition(int *A,int p,int r)
{
int x=A[r];
int i=p-1;
for(int j=p;j<=r-1;j++)
if(A[j]<x)
{
i=i+1;
swap(A[i],A[j]);
}
swap(A[i+1],A[r]);
return i+1;
}
int Randomized_Partition(int *A,int p,int r)
{
srand((unsigned)time(NULL));
int i=rand()%(r-p+1)+p;
swap(A[i],A[r]);
return Partition(A,p,r);
}
int Randomized_Select(int *A,int p,int r,int i)
{//return ith smallest number
if(p==r)
return A[p];
int q=Randomized_Partition(A,p,r);
int k=q-p+1;
if(i==k) //the pivot value is the answer
return A[q];
else if(i<k)
return Randomized_Select(A,p,q-1,i);
else
return Randomized_Select(A,q+1,r,i-k);
}
/*-----------------------------------------------------------------------------*/
/*--------------------Selection in worst-case linear time----------------------*/
int Select(int *A,int p,int r,int i);
int getMidByInsertSort(int *A,int begin,int end)
{//insert sort,return the meadian of one group
int glen=end-begin+1; //the length of each group
int gmid=(glen+1)/2;
for(int i=begin+1;i<=end;i++)
for(int j=i-1;j>=begin && A[j]>A[j+1]; j--)
swap(A[j],A[j+1]);
return A[gmid];
}
int getMid(int *A,int p,int r)
{//get the median of medians value
int length=r-p+1;
int groups;
int begin , end;
if(length % N==0) //each group contain N elements
groups=length/N;
else
groups=length/N+1;
int *mediansArr=new int[groups+1];
for(int i=1;i<=groups ;i++)
{
int begin=p+(i-1)*N; // the beginning position of each group
if(length%N!=0 && i==groups)//when the last groups isn't N,the end position is r
end=r;
else
end=p+i*N-1;
mediansArr[i]=getMidByInsertSort(A,begin,end); //medians of each group
}
return Select(mediansArr,1,groups,(groups+1)/2); //find medians in medianArr,wich stores medians of each group
}
int PartitionByMid(int *A,int p,int r,int mid)
{//exchange A[mid] with A[r]
for(int j=p;j<r;j++)
if(A[j]==A[mid])
{
swap(A[mid],A[r]);
break;
}
return Partition(A,p,r);
}
int Select(int *A,int p,int r,int i)
{
if(p==r)
return A[p];
int mid=getMid(A,p,r); //mid is the median-of-medians
int q=PartitionByMid(A,p,r,mid); //split array A to A[p..q-1]<=mid<A[q+1..r]
int k=q-p+1;
if(i==k)
return A[q];
else if(i<k)
return Select(A,p,q-1,i);
else
return Select(A,q+1,r,i-k);
}
/*-----------------------------------------------------------------------------*/
int main()
{
int n=12;
int *A,*A1;
int i=4;
cout<<"-------------Randomized-select version-----------------"<<endl;
cout<<"Input the total number n:";
cin>>n;
cout<<"Input the ith smallest's i:";
cin>>i;
A=new int[n+1];
cout<<"The random test data:"<<endl;
getTestData(A,n);
Print(A);
A1=cpArr(A); //copy array A.
int iSmallest1=Randomized_Select(A,1,n,i);
cout<<"The "<<i<<"th smallest is:"<<iSmallest1<<endl;
cout<<"--------Select in worst-case linear time-------------"<<endl;
Print(A1);
int iSmallest2=Select(A1,1,n,i);
cout<<"The "<<i<<"th smallest is:"<<iSmallest2<<endl;
return 0;
}
運行結果:
【注:若有錯誤,請指正~~~】