幾個冷門字符串算法的學習筆記（最小表示法，exKMP，Lyndon Word）

原創

Lstdo

2020-06-24 08:55

所有下標均從1開始

最小表示法

給定一個串，求字典序最小的循環同構。

我們把串複製一遍接在後面，然後求出 $[1,N]$ 開始的長爲 $N$ 的子串中最小的

先設 $i=1,j=2$

然後暴力找出 $i$ 和 $j$ 往後匹配的第一個不同的位置，記爲 $i+k$ 和 $j+k$

如果 $S_{i+k}<S_{j+k}$ ,說明 $i$ 比 $j$ 優，所以 $j$ 不是最優解；然後發現 $i+1$ 比 $j+1$ 優，所以 $j+1$ 不是最優解……這樣可以讓 $j$ 直接跳到 $j+k+1$ 。

$S_{i+k}>S_{j+k}$ 同理

如果 $i=j$ ，隨便讓一個 $+1$ 即可

兩個指針都不能超過 $N$ ，一個超過之後另一個就是答案

因爲所有位置都會被遍歷，而最優解一定不會被丟掉，所以正確性可以保證。

複雜度顯然是 $O(N)$

模板題

#include <iostream>
#include <cstdio>
#include <cstring>
using namespace std;
char s[10005];
int main()
{
	int T;
	scanf("%d",&T);
	while (T--)
	{
		scanf("%s",s);
		int n=strlen(s);
		int i=0,j=1;
		while (i<n&&j<n)
			for (int k=0;;k++)
			{
				if (s[(i+k)%n]!=s[(j+k)%n])
				{
					if (s[(i+k)%n]>s[(j+k)%n])
						i+=k+1;
					else 
						j+=k+1;
					if (i==j) j++;
					break;
				}
				if (k==n) goto end;
			}
		end:
		printf("%d\n",min(i,j)+1);
	}
	return 0;
}

(遠古代碼，和上面講的略有不同，僅供參考)

擴展KMP

官方名稱應該叫Z算法，不知道爲啥傳到國內就變成擴展KMP了

但實際上思想和manacher很像~~所以應該叫擴展馬拉車~~

解決的問題是給兩個串 $S,T$ ,求 $T$ 的每個後綴和 $S$ 的最長公共前綴

先把 $S$ 接在 $T$ 後面，中間加個#之類的東西把這個串記爲 $A$

然後設 $p_i$ 表示 $A$ 的從 $i$ 開始的後綴和 $T$ （也可以是 $A$ ）的最長公共前綴

並且設公共前綴擴展到的最右位置爲 $mx$ ,取到這個最大值的 $i$ 爲 $x$

然後 $i$ 從 $2$ 開始遍歷（因爲 $p_1$ 沒有意義還會把算法搞砸）

如果 $i<mx$

因爲上下橙色位置相同，所以 $p_i=p_{i-x+1}$ ，當然要和 $mx-i+1$ 取 $\min$

如果 $i \geq mx$ ，不管

然後暴力擴展，更新 $mx$ ,沒了

複雜度顯然 $O(|S|+|T|)$

模板題

#include <iostream>
#include <cstdio>
#include <cstring>
#include <cctype>
#define MAXN 200005
using namespace std;
char s[MAXN],t[MAXN];
int p[MAXN];
int main()
{
	scanf("%s%s",t+1,s+1);
	int m=strlen(s+1);
	strcat(s+1,"#");
	strcat(s+1,t+1);
	int n=strlen(s+1);
	for (int i=2,x=0,mx=0;i<=n;i++)
	{
		p[i]=i<=mx? min(p[i-x+1],mx-i+1):0;
		while (s[i+p[i]]==s[p[i]+1]) ++p[i];
		if (i+p[i]-1>mx) x=i,mx=i+p[i]-1;
	}
	for (int i=1;i<=n;i++)
		if (s[i]=='#') puts("");
		else printf("%d ",i>1? p[i]:m);
	return 0;
}

Lyndon Word

定義：一個串是Lyndon Word（以下簡稱LW），當且僅當它本身是自己字典序最小的後綴

下文字符串的比較均爲字典序，+爲字符串拼接

性質1 兩個LW $u,v$ ,如果 $u<v$ ,那麼 $u+v$ 是LW

對於 $v$ 的後綴，它比 $v$ 大，所以一定不是最小的；

對於 $v$ ,因爲 $u<v$ ,所以 $u+v<v$

對於 $(u的後綴)+v$ ,因爲 $u<(u的後綴)$ ,所以 $u+v<(u的後綴)+v$

所以 $u+v$ 是最小的

所以LW可以遞歸定義：

單個字符是LW
多個字典序遞增的LW順次拼接後是LW

性質2 LW的前綴仍是LW

考慮將原串不斷丟掉最後的字符那麼會產生一個空後綴，將它刪掉

然後前面的後綴相對大小不會變，所以仍然是LW

性質3 一個LW將最後一個字符變大後仍是LW

只有最後一個只包含一個字符的後綴變大，前面大小關係不變

性質4 任意字符串 $S$ 存在且僅存在一種分解方式 $S=s_1+s_2+...+s_n$ ,使得所有 $s_i$ 均爲LW且單調不增

證明是不可能的，這輩子都是不可能的

把性質4中的分解稱爲Lyndon分解

接下來要講的就是線性求Lyndon分解的Duval算法

首先三個指針 $i,j,k$ ，表示 $i$ 以前的分解已經固定,現在處理第 $k$ 個字符, $j$ 一會兒說

即 $[1,i)$ 爲 $s_1+s_2+...+s_n$ ,其中 $s_i$ 爲LW且單調不增

$[i,k)$ 爲 $t+t+...+t+t_1$ ,其中 $t$ 是LW， $t_1$ 是 $t$ 的可空前綴

也就是一個LW不斷循環，最後一個循環節可以不完整

別問爲啥，問就是歸納法

現在把 $S_k$ 加在後面，如果要繼續循環，應該加的是 $S_{k-循環節長度}$ ，我們把這個 $k$ 應該跟的位置記爲 $j$

如果 $S_j==S_k$ ，說明循環正常，繼續往後

如果 $S_j<S_k$ ，根據性質3，最後一個不完整的循環節 $t_1$ 加上 $S_k$ 是個LW並且比前面的 $t$ 都大，不斷向前合併發現整段都是LW。所以將 $[i,k]$ 一長串合併成新的 $t$ ，即令 $j=i$

如果 $S_j>S_k$ 不管 $t_1$ 和 $S_k$ 大小關係，反正後面怎麼加怎麼都會小於 $t$ ,所以沒 $t$ 啥事了，把所有 $t$ 固定下來

模板題

#include <iostream>
#include <cstdio>
#include <cstring>
#include <cctype>
#define MAXN (1<<20)+5
using namespace std;
char s[MAXN];
int main()
{
	scanf("%s",s+1);
	int n=strlen(s+1);
	for (int i=1;i<=n;)
	{
		int j=i,k=i+1;
		while (s[j]<=s[k])
		{
			if (s[j]==s[k]) ++j;
			else j=i;
			++k;
		}
		while (i<=j)
		{
			printf("%d ",i+k-j-1);
			i+=k-j;
		}
	}
	return 0;
}

~~我華燈宴呢~~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

幾個冷門字符串算法的學習筆記（最小表示法，exKMP，Lyndon Word）

最小表示法

擴展KMP

Lyndon Word

【UOJ188】 Sanrd【類min_25篩】

【LOJ6363】「地底薔薇」【點雙】【指數型生成函數】【擴展拉格朗日反演】【多項式冪函數】

【ARC103D】Distance Sums【樹論】【構造】

幾個冷門字符串算法的學習筆記（最小表示法，exKMP，Lyndon Word）

【ZJOI2018】歷史【結論】【LCT思想】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結