對於AC自動機可能有的疑問。
首先上代碼,該代碼使用char型數組保存,事實上string也完全可以。
#include<bits/stdc++.h>
using namespace std;
char s[1000005];
struct Tree//字典樹
{
int fail;//失配指針
int vis[26];//子節點的位置
int end;//標記有幾個單詞以這個節點結尾
}AC[1000000];//Trie樹
int cnt=0;//Trie的指針
inline void Build(char* s)
{
int l=strlen(s+1);
int now=0;//字典樹的當前指針
for(int i=1;i<=l;++i)//構造Trie樹
{
if(AC[now].vis[s[i]-'a']==0)//Trie樹沒有這個子節點
AC[now].vis[s[i]-'a']=++cnt;//構造出來
now=AC[now].vis[s[i]-'a'];//向下構造
}
AC[now].end+=1;//標記單詞結尾
}
void Get_fail()//構造fail指針
{
queue<int> Q;//隊列
for(int i=0;i<26;++i)//第二層的fail指針提前處理一下
{
if(AC[0].vis[i]!=0)
{
AC[AC[0].vis[i]].fail=0;//指向根節點
Q.push(AC[0].vis[i]);//壓入隊列
}
}
while(!Q.empty())//BFS求fail指針
{
int u=Q.front();
Q.pop();
for(int i=0;i<26;++i)//枚舉所有子節點
{
if(AC[u].vis[i]!=0)//存在這個子節點
{
AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i];
//子節點的fail指針指向當前節點的
//fail指針所指向的節點的相同子節點
Q.push(AC[u].vis[i]);//壓入隊列
}
else//不存在這個子節點
AC[u].vis[i]=AC[AC[u].fail].vis[i];
//當前節點的這個子節點指向當
//前節點fail指針的這個子節點
}
}
}
int AC_Query(char* s)//AC自動機匹配
{
int l=strlen(s+1);
int now=0,ans=0;
for(int i=1;i<=l;++i)
{
now=AC[now].vis[s[i]-'a'];//向下一層
for(int t=now;t&&AC[t].end!=-1;t=AC[t].fail)//循環求解
{
ans+=AC[t].end;
AC[t].end=-1;
}
}
return ans;
}
int main()
{
int n;
cin>>n;
for(int i=1;i<=n;++i)
{
scanf("%s",s+1);
Build(s);
}
AC[0].fail=0;//結束標誌
Get_fail();//求出失配指針
scanf("%s",s+1);//文本串
cout<<AC_Query(s)<<endl;
return 0;
}
1、其實fail數組fail[u]=v的意思就是根節點到v所表示的字符串爲從根節點到u所代表的字符串的後綴。之所以這樣做是因爲如果在u處失配,則v的前半部分也已配對好,只需接着配對即可。
2、 在構造fail數組時,基於u(即當前子節點)的構造使人一開始十分疑惑。事實上,這樣的構造方式可以起到加速效果。而且畫圖有助於理解。(在樹中插入she和her,之後去匹配sher,十分清楚)。
先去吃飯。