AC自動機理解

對於AC自動機可能有的疑問。

首先上代碼,該代碼使用char型數組保存,事實上string也完全可以。

#include<bits/stdc++.h>
using namespace std;
char s[1000005];
struct Tree//字典樹 
{
     int fail;//失配指針
     int vis[26];//子節點的位置
     int end;//標記有幾個單詞以這個節點結尾 
}AC[1000000];//Trie樹
int cnt=0;//Trie的指針 
inline void Build(char* s)
{
        int l=strlen(s+1);
        int now=0;//字典樹的當前指針 
        for(int i=1;i<=l;++i)//構造Trie樹
        {
                if(AC[now].vis[s[i]-'a']==0)//Trie樹沒有這個子節點
                   AC[now].vis[s[i]-'a']=++cnt;//構造出來
                now=AC[now].vis[s[i]-'a'];//向下構造 
        }
        AC[now].end+=1;//標記單詞結尾 
}
void Get_fail()//構造fail指針
{
        queue<int> Q;//隊列 
        for(int i=0;i<26;++i)//第二層的fail指針提前處理一下
        {
               if(AC[0].vis[i]!=0)
               {
                   AC[AC[0].vis[i]].fail=0;//指向根節點
                   Q.push(AC[0].vis[i]);//壓入隊列 
               }
        }
        while(!Q.empty())//BFS求fail指針 
        {
              int u=Q.front();
              Q.pop();
              for(int i=0;i<26;++i)//枚舉所有子節點
              {
                      if(AC[u].vis[i]!=0)//存在這個子節點
                      {
                              AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i];
                                  //子節點的fail指針指向當前節點的
                                  //fail指針所指向的節點的相同子節點 
                              Q.push(AC[u].vis[i]);//壓入隊列 
                      }
                      else//不存在這個子節點 
                      AC[u].vis[i]=AC[AC[u].fail].vis[i];
                      //當前節點的這個子節點指向當
                      //前節點fail指針的這個子節點 
              }
        }
}
int AC_Query(char* s)//AC自動機匹配
{
        int l=strlen(s+1);
        int now=0,ans=0;
        for(int i=1;i<=l;++i)
        {
                now=AC[now].vis[s[i]-'a'];//向下一層
                for(int t=now;t&&AC[t].end!=-1;t=AC[t].fail)//循環求解
                {
                         ans+=AC[t].end;
                         AC[t].end=-1;
                } 
        }
        return ans;
}
int main()
{
     int n;
     cin>>n;
     for(int i=1;i<=n;++i)
     {
            scanf("%s",s+1);
            Build(s);
     }
     AC[0].fail=0;//結束標誌 
     Get_fail();//求出失配指針
     scanf("%s",s+1);//文本串 
     cout<<AC_Query(s)<<endl;
     return 0;
}

1、其實fail數組fail[u]=v的意思就是根節點到v所表示的字符串爲從根節點到u所代表的字符串的後綴。之所以這樣做是因爲如果在u處失配,則v的前半部分也已配對好,只需接着配對即可。

2、 在構造fail數組時,基於u(即當前子節點)的構造使人一開始十分疑惑。事實上,這樣的構造方式可以起到加速效果。而且畫圖有助於理解。(在樹中插入she和her,之後去匹配sher,十分清楚)。

先去吃飯。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章