並查集,在一些有N個元素的集合應用問題中,我們通常是在開始時讓每個元素構成一個單元素的集合,然後按一定順序將屬於同一組的元素所在的集合合併,其間要反覆查找一個元素在哪個集合中。這一類問題近幾年來反覆出現在信息學的國際國內賽題中,其特點是看似並不複雜,但數據量極大,若用正常的數據結構來描述的話,往往在空間上過大,計算機無法承受;即使在空間上勉強通過,運行的時間複雜度也極高,根本就不可能在比賽規定的運行時間(1~3秒)內計算出試題需要的結果,只能用並查集來描述。
並查集是一種樹型的數據結構,用於處理一些不相交集合(Disjoint Sets)的合併及查詢問題。常常在使用中以森林來表示。
主要操作
初始化
把每個點所在集合初始化爲其自身。
通常來說,這個步驟在每次使用該數據結構時只需要執行一次,無論何種實現方式,時間複雜度均爲O(N)。
查找
查找元素所在的集合,即根節點。
合併
將兩個元素所在的集合合併爲一個集合。
通常來說,合併之前,應先判斷兩個元素是否屬於同一集合,這可用上面的“查找”操作實現。
例題
Description(題目描述)
若某個家族人員過於龐大,要判斷兩個是否是親戚,確實不容易,給出某個親戚關係圖,求任意給出的兩個人是否具有親戚關係。
規定:x和y是親戚,y和z是親戚,那麼x和z也是親戚。如果x,y是親戚,那麼x的親戚都是y的親戚,y的親戚也都是x的親戚。
Output(輸出)
共P行,每行一個’Yes’或’No’。表示第個詢問的答案爲“有”或“沒有”親戚關係。
分析問題實質
初步分析覺得本題是一個圖論中判斷兩個點是否在同一個連通子圖中的問題。對於題目中的樣例,以人爲點,關係爲邊,建立無向圖如下:
圖0-0-1 {請補充圖解}
比如判斷3和4是否爲親戚時,我們檢查3和4是否在同一個連通子圖中,結果是在,於是他們是親戚。又如7和10不在同一個連通子圖中,所以他們不是親戚。
用圖的數據結構的最大問題是,我們無法存下多至(M=)2 000 000條邊的圖,後面關於算法時效等諸多問題就免談了。
用圖表示關係過於“奢侈”了。其實本題只是一個對分離集合(並查集)操作的問題。
例如樣例:
9 7 1
2 4
5 7
1 3
8 9
1 2
5 6
2 3
1 9
我們可以給每個人建立一個集合,集合的元素值有他自己,表示最開始時他不知道任何人是它的親戚。以後每次給出一個親戚關係a, b,則a和他的親戚與b和他的親戚就互爲親戚了,將a所在集合與b所在集合合併。對於樣例數據的操作全過程如下:
初始狀態:{1} {2} {3} {4} {5} {6} {7} {8} {9}
輸入關係 分離集合
(2,4) {2,4}{1} {3} {5} {6} {7} {8} {9}
(5,7) {2,4} {5,7} {1} {3} {6} {8} {9}
(1,3) {1,3} {2,4} {5,7}{6} {8} {9}
(8,9) {1,3} {2,4} {5,7} {8,9}{6}
(1,2) {1,2,3,4} {5,7} {8,9}{6}
(5,6) {1,2,3,4} {5,6,7} {8,9}
(2,3) {1,2,3,4} {5,6,7} {8,9}
判斷親戚關係
(1,9),因爲1,9不在同一集合內,所以輸出"NO"。
最後我們得到3個集合{1,2,3,4}、{5,6,7}、{8,9},於是判斷兩個人是否親戚的問題就變成判斷兩個數是否在同一個集合中的問題。如此一來,需要的數據結構就沒有圖結構那樣龐大了。
算法需要以下幾個子過程:
(1) 開始時,爲每個人建立一個集合FHM_ak_ioi(x);
(2) 得到一個關係a b,合併相應集合FHM_ak_noi(a,b);
(3) 此外我們還需要判斷兩個人是否在同一個集合中,這就涉及到如何標識集合的問題。我們可以在每個集合中選一個代表標識集合,因此我們需要一個子過程給出每個集合的代表元FHM_ak_csp(a)。於是判斷兩個人是否在同一個集合中,即兩個人是否爲親戚,等價於判斷FHM_ak_csp(a)=FHM_ak_csp(b)。
有了以上子過程的支持,我們就有如下算法。
PROBLEM-Relations(N, M, a1,…,aM, b1,…,bM, Q, c1,…,cQ, d1,…,dQ)
for i←1 to N
do FHM_ak_ioi(i)
for i←1 to M
do if FHM_ak_csp(ai) != FHM_ak_csp(bi)
then FHM_ak_noi(ai, bi)
for i←1 to Q
do if FHM_ak_csp(ci)=FHM_ak_csp(di)
then output “Yes”
else output “No”
解決問題的關鍵便爲選擇合適的數據結構實現並查集的操作,使算法的實現效率最高。
注意事項
本題的輸入數據量很大,這使得我們的程序會在輸入中花去不少時間。如果你用Pascal寫程序,可以用庫函數SetTextBuf爲輸入文件設置緩衝區,這可以使輸入過程加快不少。如果你是用C語言的話,就不必爲此操心了,系統會自動分配緩衝區。
單鏈表實現
一個節點對應一個人,在同一個集合中的節點串成一條鏈表就得到了單鏈表的實現。在集合中我們以單鏈表的第一個節點作爲集合的代表元。於是每個節點x(x也是人的編號)應包含這些信息:指向代表元即表首的指針head[x],指向表尾的指針tail[x],下一個節點的指針next[x]。
SUB-Make-Set(x)過程設計如下:
SUB-Make-Set(x)
10 head[x]←x
11 tail[x]←x
12 next[x]←NIL
求代表元的SUB-Find-Set(x)過程設計如下:
SUB-Find-Set(x)
13 return head[x]
前兩個過程比較簡單,SUB-Union(a,b)稍微複雜一點。我們要做的是將b所在鏈表加到a所在鏈表尾,然後b所在鏈表中的所有節點的代表元指針改指a所在鏈表的表首節點,如圖所示。
圖0-0-2
過程的僞代碼如下:
SUB-Union(a,b)
14 next[tail[head[a]]]←head[b]
15 tail[head[a]]←tail[head[b]]
16 p←head[b]
17 while p != NIL
18 do head[p]←head[a]
19 p←next[p]
我們來分析一下算法的時間效率。SUB-Make-Set(x)和SUB-Find-Set(x)都只需要O(1)的時間,而SUB-Union(a,b)的時間效率與b所在鏈表的長度成線性關係。最壞情況下,即有操作序列SUB-Union(N-1,N), SUB-Union(N-2,N-1), …, SUB-Union(1,2)時,整個算法PROBLEM-Relations的時間複雜度爲O(N+M+N^2+Q)=O(N^2+M+Q)。
由於算法的時間複雜度中O(M+Q)是必需的,因此我們要讓算法更快,就要考慮如何使減小O(N^2)。
我們想到合併鏈表時,我們可以用一種啓發式的方法:將較短的表合併到較長表上。爲此每個節點中還需包含表的長度的信息。這比較容易實現,我們就不寫出僞代碼了。
首先我們給出一個固定對象x的代表元指針head[x]被更新次數的上界。由於每次x的代表元指針被更新時,x必然在較小的集合中,因此x的代表元指針被更新一次後,集合至少含2個元素。類似地,下一次更新後,集合至少含4個元素,繼續下去,當x的代表元指針被更新 log k 次後,集合至少含k個元素,而集合最多含n個元素,所以x的代表元指針至多被更新 log n 次。所以M次SUB-Union(a,b)操作的時間複雜度爲O(NlogN+M)。算法總的時間複雜度爲O(NlogN+M+Q)。
並查集森林
並查集的另一種更快的實現是用有根樹來表示集合:每棵樹表示一個集合,樹中的節點對應一個人。圖示出了一個並查集森林。
圖0-0-3
每個節點x包含這些信息:父節點指針p[x],樹的深度rank[x]。其中rank[x]將用於啓發式合併過程。
於是建立集合過程的時間複雜度依然爲O(1)。
SUB-Make-Set(x)
20 p[x]←x
21 rank[x]←0
用森林的數據結構來實現的最大好處就是降低SUB-Union(a,b)過程的時間複雜度。
SUB-Union(a,b)
22 SUB-Link(SUB-Find-Set(a),SUB-Find-Set(b))
SUB-Link(a,b)
23 p[a]←b
合併集合的工作只是將a所在樹的根節點的父節點改爲b所在樹的根節點。這個操作只需O(1)的時間。而SUB-Union(a,b)的時間效率決定於SUB-Find-Set(x)的快慢。
SUB-Find-Set(x)
24 if x=p[x]
25 then return x
26 else return SUB-Find-Set(p[x])
這個過程的時效與樹的深度成線性關係,因此其平均時間複雜度爲O(logN),但在最壞情況下(樹退化成鏈表),時間複雜度爲O(N)。於是PROBLEM-Relations最壞情況的時間複雜度爲O(N(M+Q))。有必要對算法進行優化。
第一個優化是啓發式合併。在優化單鏈表時,我們將較短的錶鏈到較長的表尾,在這裏我們可以用同樣的方法,將深度較小的樹指到深度較大的樹的根上。這樣可以防止樹的退化,最壞情況不會出現。SUB-Find-Set(x)的時間複雜度爲O(log N),PROBLEM-Relations時間複雜度爲O(N + logN (M+Q))。SUB-Link(a,b)作相應改動。
SUB-Link(a,b)
27 if rank[a]>rank
28 then p←a
29 else p[a]←b
30 if rank[a]=rank
31 then rank←rank+1
然而算法的耗時主要還是花在SUB-Find-Set(x)上。
第二個優化是路徑壓縮。它非常簡單而有效。如圖所示,在SUB-Find-Set(1)時,我們“順便”將節點1, 2, 3的父節點全改爲節點4,以後再調用SUB-Find-Set(1)時就只需O(1)的時間。
圖0-0-4
於是SUB-Find-Set(x)的代碼改爲:
SUB-Find-Set(x)
32 if x≠p[x]
33 then p[x]←SUB-Find-Set(p[x])
34 return p[x]
該過程首先找到樹的根,然後將路徑上的所有節點的父節點改爲這個根。實現時,遞歸的程序有許多棧的操作,改成非遞歸會更快些。
SUB-Find-Set(x)
35 r←x
36 while r≠p[r]
37 do r←p[r]
38 while x?r
39 do q←p[x]
40 p[x]←r
41 x←q
42 return r
改進後的算法時間複雜度的分析十分複雜,如果完整的寫出來足可寫一節,這裏我們只給出結論:改進後的PROBLEM-Relations其時間複雜度爲O(N+(M+Q)*A(M+Q,N)),其中A(M+Q,N)爲Ackerman函數的增長極爲緩慢的逆函數。你不必瞭解與Ackerman函數相關的內容,只需知道在任何可想象得到的並查集數據結構的應用中,A(M+Q,N)≤4,因此PROBLEM-Relations的時間複雜度可認爲是線性的O(N+M+Q)。
優化路徑壓縮
思想
每次查找的時候,如果路徑較長,則修改信息,以便下次查找的時候速度更快。
實現
第一步,找到根結點。
第二步,修改查找路徑上的所有節點,將它們都指向根結點。
代碼
#include<bits/stdc++.h>
using namespace std;
const int M = 1e3 + 10 ;
int n , m ;
int folk[M] ;
int dsu (int u) {
return u == folk[u] ? u : folk[u] = dsu (folk[u]) ;
}
int main () {
int n ;
scanf ("%d" , &n) ;
for (int i = 0 ; i < n ; i ++) folk[i] = i ;
scanf ("%d" , &m) ;
while (m --) {
int u , v ;
scanf ("%d%d" , &u , &v) ;
int _u = dsu (u) , _v = dsu (v) ;
if (_u != _v) {
folk[_v] = _u ;
}
}
for (int i = 0 ; i < n ; i ++) dsu (i) ;
return 0 ;
}
圖示
代碼
Java版
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.StreamTokenizer;
public class Main{
private static int father[];
public static void main(String[]args)throws Exception{
StreamTokenizer st = new StreamTokenizer(new BufferedReader(new InputStreamReader(System.in)));
while(st.nextToken() != StreamTokenizer.TT_EOF){
int n=(int)st.nval;
father=new int[n+1];
for(int i=1;i<=n;i++){
father[i]=i;
}
st.nextToken();
int m=(int)st.nval;
st.nextToken();
int p=(int)st.nval;
for(int i=0;i<m;i++){
st.nextToken();
int a=(int)st.nval;
st.nextToken();
int b=(int)st.nval;
union(a,b);
}
for(int i=0;i<p;i++){
st.nextToken();
int a=(int)st.nval;
st.nextToken();
int b=(int)st.nval;
a=findParent(a);
b=findParent(b);
System.out.println(a==b?"Yes":"No");
}
}
}
private static void union(int f,int t){
int a=findParent(f);
int b=findParent(t);
if(a==b)return;
if(a>b){
father[a]=b;
}
else {
father[b]=a;
}
}
private static int findParent(int f){
while(father[f]!=f){
f=father[f];
}
return f;
}
}
C++版
#include<bits/stdc++.h>
using namespace std;
int n,m,p,FHM_ak_ioi[100005];
/*
x代表例題中的人,FHM_ak_ioi[x]中所存的數代表這一集合中所有人都與一個人有親戚關係
相當於例題中第一個集合所有的元素都與第一個元素有親戚關係
搜索時只要找元素所指向的FHM_ak_ioi[x]=x的元素(即父元素)
然後比較兩個元素的父元素是否相同就可以判斷其關係
*/
int findfa(int x){
return (FHM_ak_ioi[x]==x)?x:FHM_ak_ioi[x]=findfa(FHM_ak_ioi[x]);
}
void merge(int x,int y){
FHM_ak_ioi[x]=y;
}
int main(){
scanf("%d%d%d",&n,&m,&p);
for(int i=1;i<=n;i++){
FHM_ak_ioi[i]=i;
}
for(int i=1;i<=m;i++){
int u,v;
scanf("%d%d",&u,&v);
if(findfa(u)!=findfa(v)){
merge(FHM_ak_ioi[u],FHM_ak_ioi[v]);
}
}
for(int i=1;i<=p;i++){
int u,v;
scanf("%d%d",&u,&v);
if(findfa(u)!=findfa(v)){
printf("No\n");
}
else printf("Yes\n");
}
}