後綴數組模版代碼解析

   今天看了後綴數組的模版代碼,終於看懂了模版的每個部分所實現的功能,但是具體細節還沒完全理解,看來暫時只能套模版了,下面是模版及註釋;

   

/*
sa[i] : 表示 排在第i位的後綴 起始下標

rank[i] : 表示後綴 suffix(i)排在第幾

RANK表示你排第幾   SA表示排第幾的是誰 (記住這個就行)

height[i] : 表示 sa[i-1] 與 sa[i] 的LCP 值,也就是排名相鄰的兩個後綴的最長公共前綴

h[i]: 等於Height[Rank[i]],表示 suffix(i)與其排名前一位的 LCP值
*/
#include<stdio.h>
#include<string.h>
#include<iostream>
using namespace std;
#define maxn 20010
#define ws wss
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int cmp(int *r,int a,int b,int l)
{return r[a]==r[b]&&r[a+l]==r[b+l];}
//用於比較第一關鍵字與第二關鍵字,
// 比較特殊的地方是,預處理的時候,r[n]=0(小於前面出現過的字符)
void da(int *r,int *sa,int n,int m)//此處N比輸入的N要多1,爲人工添加的一個字符,用於避免CMP時越界
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0;i<m;i++) ws[i]=0;
    for(i=0;i<n;i++) ws[x[i]=r[i]]++;
    for(i=1;i<m;i++) ws[i]+=ws[i-1];
    for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;//預處理長度爲1
    //上面四行就是把長度爲1的前綴按基數排序的過程
    for(j=1,p=1;p<n;j*=2,m=p)//通過已經求出的長度J的SA,來求2*J的SA
                            //j是前綴長度, p是不同大小的後綴數量, m爲大於所有值的值
{
    for(p=0,i=n-j;i<n;i++) y[p++]=i;// 特殊處理沒有第二關鍵字的
    for(i=0;i<n;i++)
    if(sa[i]>=j)
      y[p++]=sa[i]-j;
    // 上面代碼使y保存了以第二關鍵字排序的結果 ,以第二關鍵字排序結果可利用上一個sa數組
     for(i=0;i<n;i++) wv[i]=x[y[i]];
     for(i=0;i<m;i++) ws[i]=0;
     for(i=0;i<n;i++) ws[wv[i]]++;
     for(i=1;i<m;i++) ws[i]+=ws[i-1];
     for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];//以第一關鍵字排序,基數排序部分

        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  //交換x和y,rank值保存在x數組中,p爲不同串的個數,更新名次數         組x[],注意判定相同的
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
    return ;
}
int rank[maxn],height[maxn];
void calheight(int *r,int *sa,int n){ // 此處N爲實際長度
    int i,j,k=0;                 // height[]的合法範圍爲 1-N, 其中0是結尾加入的字符
    for(i=1;i<=n;i++) rank[sa[i]]=i;// 根據SA求RANK
    for(i=0;i<n;height[rank[i++]]=k)// 定義:h[i] = height[ rank[i] ]
    for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);//根據 h[i] >= h[i-1]-1 來優化計算height過程
    return ;
}

int main()
{
        int sa[20010];
        int n,i,j,k;
        int t1,t2;
        n=8;
        int note[9]={1,1,2,1,1,1,1,2};
        da(note,sa,n+1,4); //注意區分此處爲n+1,因爲添加了一個結尾字符用於區別比較
        calheight(note,sa,n);
        for(i=1;i<=n;i++)
            cout<<sa[i]<<endl;
        cout<<".."<<endl;
        for(j=1;j<=n;j++)
            cout<<height[j]<<endl;
        return 0;
}
     註釋解釋了哪個模塊具體實現什麼功能,這體現了c++語言的封裝性,其實如果程序語句很難理解的話,權宜之計是儘快明白哪個部分實現了哪個功能,能運用些模塊實現哪些操作,具體原理過程在不斷運用中加深理解。
發佈了101 篇原創文章 · 獲贊 23 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章