04 串
-
定義
串(String)是由零個或多個字符組成的有限序列,又名叫字符串。
ADT 串(string) Data 串中元素僅由一個字符組成,相鄰元素具有前驅和後繼關係 Operation StrAssign(T,*chars):生成一個其值等於字符串常量chars的串T。 StrCopy(T,S):串S存在,由串S複製得串T。 ClearString(S):串S存在,將串清空。 StringEmpty(S):若串爲空,則返回true,否則返回false。 StrLength(S):返回S的元素個數,即串S的長度。 StrCompare(S,T):若S>T,返回>0,S=T,返回=0,S<T,返回<0. Concat(T,S1,S2):用T返回由S1和S2聯接而成的新串。 SubString(Sub,S,pos,len):串S存在,1<=pos<=Strlength(S), 且0<=len<=Strlength(S)-pos+1. 用Sub返回串S的第pos個字符起長 度爲len的子串。 Index(S,T,pos):串S和T存在,T是非空串,1<=pos<=Strlength(S). 若主串S中存在和串T值相同的字串,則返回它在主 串S中第pos個字符之後第一次出現的位置,否則返回0 Replace(S,T,V):串S,T和V存在,T是非空串。用V替換主串S中出現 的所有與T相等的不重疊的子串。 StrInsert(S,pos,T):串S和T存在,1<=pos<=Strlength(S)+1.在串S的 第pos個字符之前插入串T。 SteDelete(S,pos,len):串S存在,1<=pos<=StrLength(s)-len+1.從串 S中刪除第pos個字符起長度爲len的子串。
-
順序存儲結構
-
鏈式存儲結構
-
樸素的模式匹配算法:最壞情況的時間複雜度爲O((n-m+1)*m)
子串的定位操作通常稱做串的模式匹配
/* 樸素的模式匹配法 */
int Index(String S, String T, int pos)
{
int i = pos; /* i用於主串S中當前位置下標值,若pos不爲1,則從pos位置開始匹配 */
int j = 1; /* j用於子串T中當前位置下標值 */
while (i <= S[0] && j <= T[0]) /* 若i小於S的長度並且j小於T的長度時,循環繼續 */
{
if (S[i] == T[j]) /* 兩字母相等則繼續 */
{
++i;
++j;
}
else /* 指針後退重新開始匹配 */
{
i = i-j+2; /* i退回到上次匹配首位的下一位 */
j = 1; /* j退回到子串T的首位 */
}
}
if (j > T[0])
return i-T[0];
else
return 0;
}
-
KMP模式匹配算法
- 原理
- 實現
對於get_next函數來說,若T的長度爲m,因只涉及到簡單的單循環,其時間複雜度爲O(m),而由於i值不回溯,使得index_KMP算法效率得以提高,while循環的時間複雜度爲O(n)。因此,整個算法的時間複雜度爲O(m+n)。相較於樸素模式匹配算法的O((n-m+1)*m)來說,是要好一些。但這裏也需要強調,KMP算法僅當模式與主串之間存在許多“部分匹配”的情況下才體現出它的優勢,否則兩者差異並不明顯。
/* 通過計算返回子串T的next數組。 */ void get_next(String T, int *next) { int i,j; i=1; j=0; next[1]=0; while (i<T[0]) /* 此處T[0]表示串T的長度 */ { if(j==0 || T[i]== T[j]) /* T[i]表示後綴的單個字符,T[j]表示前綴的單個字符 */ { ++i; ++j; next[i] = j; } else j= next[j]; /* 若字符不相同,則j值回溯 */ } } /* 返回子串T在主串S中第pos個字符之後的位置。若不存在,則函數返回值爲0。 */ /* T非空,1≤pos≤StrLength(S)。 */ int Index_KMP(String S, String T, int pos) { int i = pos; /* i用於主串S中當前位置下標值,若pos不爲1,則從pos位置開始匹配 */ int j = 1; /* j用於子串T中當前位置下標值 */ int next[255]; /* 定義一next數組 */ get_next(T, next); /* 對串T作分析,得到next數組 */ while (i <= S[0] && j <= T[0]) /* 若i小於S的長度並且j小於T的長度時,循環繼續 */ { if (j==0 || S[i] == T[j]) /* 兩字母相等則繼續,與樸素算法增加了j=0判斷 */ { ++i; ++j; } else /* 指針後退重新開始匹配 */ j = next[j];/* j退回合適的位置,i值不變 */ } if (j > T[0]) return i-T[0]; else return 0; }
-
改進:將get_next(T,next)改爲get_nextval(T,next)
/* 求模式串T的next函數修正值並存入數組nextval */ void get_nextval(String T, int *nextval) { int i,j; i=1; j=0; nextval[1]=0; while (i<T[0]) /* 此處T[0]表示串T的長度 */ { if(j==0 || T[i]== T[j]) /* T[i]表示後綴的單個字符,T[j]表示前綴的單個字符 */ { ++i; ++j; if (T[i]!=T[j]) /* 若當前字符與前綴字符不同 */ nextval[i] = j; /* 則當前的j爲nextval在i位置的值 */ else nextval[i] = nextval[j]; /* 如果與前綴字符相同,則將前綴字符的 */ /* nextval值賦值給nextval在i位置的值 */ } else j= nextval[j]; /* 若字符不相同,則j值回溯 */ } }