几个冷门字符串算法的学习笔记(最小表示法,exKMP,Lyndon Word)

所有下标均从1开始

最小表示法

给定一个串,求字典序最小的循环同构。

我们把串复制一遍接在后面,然后求出[1,N][1,N]开始的长为NN的子串中最小的

先设i=1,j=2i=1,j=2

然后暴力找出iijj往后匹配的第一个不同的位置,记为i+ki+kj+kj+k

如果Si+k<Sj+kS_{i+k}<S_{j+k},说明iijj优,所以jj不是最优解;然后发现i+1i+1j+1j+1优,所以j+1j+1不是最优解……这样可以让jj直接跳到j+k+1j+k+1

Si+k>Sj+kS_{i+k}>S_{j+k}同理

如果i=ji=j,随便让一个+1+1即可

两个指针都不能超过NN,一个超过之后另一个就是答案

因为所有位置都会被遍历,而最优解一定不会被丢掉,所以正确性可以保证。

复杂度显然是O(N)O(N)

模板题

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
char s[10005];
int main()
{
	int T;
	scanf("%d",&T);
	while (T--)
	{
		scanf("%s",s);
		int n=strlen(s);
		int i=0,j=1;
		while (i<n&&j<n)
			for (int k=0;;k++)
			{
				if (s[(i+k)%n]!=s[(j+k)%n])
				{
					if (s[(i+k)%n]>s[(j+k)%n])
						i+=k+1;
					else 
						j+=k+1;
					if (i==j) j++;
					break;
				}
				if (k==n) goto end;
			}
		end:
		printf("%d\n",min(i,j)+1);
	}
	return 0;
}

(远古代码,和上面讲的略有不同,仅供参考)

扩展KMP

官方名称应该叫Z算法,不知道为啥传到国内就变成扩展KMP了

但实际上思想和manacher很像所以应该叫扩展马拉车

解决的问题是给两个串S,TS,T,求 TT的每个后缀和SS 的最长公共前缀

先把SS接在TT后面,中间加个#之类的东西 把这个串记为AA

然后设pip_i表示AA的从ii开始的后缀和TT(也可以是AA)的最长公共前缀

并且设公共前缀扩展到的最右位置为mxmx,取到这个最大值的iixx

然后ii22开始遍历(因为p1p_1没有意义还会把算法搞砸)

如果i<mxi<mx

在这里插入图片描述
因为上下橙色位置相同,所以pi=pix+1p_i=p_{i-x+1},当然要和mxi+1mx-i+1min\min

如果imxi \geq mx,不管

然后暴力扩展,更新mxmx,没了

复杂度显然O(S+T)O(|S|+|T|)

模板题

#include <iostream>
#include <cstdio>
#include <cstring>
#include <cctype>
#define MAXN 200005
using namespace std;
char s[MAXN],t[MAXN];
int p[MAXN];
int main()
{
	scanf("%s%s",t+1,s+1);
	int m=strlen(s+1);
	strcat(s+1,"#");
	strcat(s+1,t+1);
	int n=strlen(s+1);
	for (int i=2,x=0,mx=0;i<=n;i++)
	{
		p[i]=i<=mx? min(p[i-x+1],mx-i+1):0;
		while (s[i+p[i]]==s[p[i]+1]) ++p[i];
		if (i+p[i]-1>mx) x=i,mx=i+p[i]-1;
	}
	for (int i=1;i<=n;i++)
		if (s[i]=='#') puts("");
		else printf("%d ",i>1? p[i]:m);
	return 0;
}

Lyndon Word

定义:一个串是Lyndon Word(以下简称LW),当且仅当它本身是自己字典序最小的后缀

下文字符串的比较均为字典序,+为字符串拼接

性质1 两个LW u,vu,v,如果u<vu<v,那么u+vu+v是LW

对于vv的后缀,它比vv大,所以一定不是最小的;

对于vv,因为u<vu<v,所以u+v<vu+v<v

对于(u)+v(u的后缀)+v,因为u<(u)u<(u的后缀),所以u+v<(u)+vu+v<(u的后缀)+v

所以u+vu+v是最小的

所以LW可以递归定义:

  1. 单个字符是LW
  2. 多个字典序递增的LW顺次拼接后是LW

性质2 LW的前缀仍是LW

考虑将原串不断丢掉最后的字符 那么会产生一个空后缀,将它删掉

然后前面的后缀相对大小不会变,所以仍然是LW

性质3 一个LW将最后一个字符变大后仍是LW

只有最后一个只包含一个字符的后缀变大,前面大小关系不变

性质4 任意字符串SS存在且仅存在一种分解方式S=s1+s2+...+snS=s_1+s_2+...+s_n,使得所有sis_i均为LW且单调不增

证明是不可能的,这辈子都是不可能的

把性质4中的分解称为Lyndon分解

接下来要讲的就是线性求Lyndon分解的Duval算法

首先三个指针i,j,ki,j,k,表示ii以前的分解已经固定,现在处理第kk个字符,jj一会儿说

[1,i)[1,i)s1+s2+...+sns_1+s_2+...+s_n,其中sis_i为LW且单调不增

[i,k)[i,k)t+t+...+t+t1t+t+...+t+t_1,其中tt是LW,t1t_1tt的可空前缀

也就是一个LW不断循环,最后一个循环节可以不完整

别问为啥,问就是归纳法

现在把SkS_k加在后面,如果要继续循环,应该加的是SkS_{k-循环节长度},我们把这个kk应该跟的位置记为jj

如果Sj==SkS_j==S_k,说明循环正常,继续往后

如果Sj<SkS_j<S_k,根据性质3,最后一个不完整的循环节t1t_1加上SkS_k是个LW并且比前面的tt都大,不断向前合并发现整段都是LW。所以将[i,k][i,k]一长串合并成新的tt,即令j=ij=i

如果Sj>SkS_j>S_k 不管t1t_1SkS_k大小关系,反正后面怎么加怎么都会小于tt,所以没tt啥事了,把所有tt固定下来

模板题

#include <iostream>
#include <cstdio>
#include <cstring>
#include <cctype>
#define MAXN (1<<20)+5
using namespace std;
char s[MAXN];
int main()
{
	scanf("%s",s+1);
	int n=strlen(s+1);
	for (int i=1;i<=n;)
	{
		int j=i,k=i+1;
		while (s[j]<=s[k])
		{
			if (s[j]==s[k]) ++j;
			else j=i;
			++k;
		}
		while (i<=j)
		{
			printf("%d ",i+k-j-1);
			i+=k-j;
		}
	}
	return 0;
}

我 华 灯 宴 呢

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章