我想說一句“我日,我討厭KMP!”。
KMP雖然經典,但是理解起來極其複雜,好不容易理解好了,便起碼來巨麻煩!
老子就是今天圖書館在寫了幾個小時才勉強寫了一個有bug的、效率不高的KMP,特別是計算next數組的部分。
其實,比KMP算法速度快的算法大把大把,而且理解起來更簡單,爲何非要抓住KMP呢?筆試出現字符串模式匹配時直接上sunday算法,既簡單又高效,何樂而不爲?
說實話,想到sunday算法的那個人,絕對是發散思維,絕對牛。當我在被KMP折磨的夠嗆的時候,我就琢磨,有沒有別的好算法呢??琢磨了半天也沒想出個所以然來。笨啊,腦子不夠發散。
下面貼上一位兄弟寫的算法總結,很簡單(建議KMP部分就不用看了,看了費腦子)。
參見:http://hi.baidu.com/willamette/blog/item/02bd0b5599c8b4c0b645ae06.html
趁着做Presentation的功夫,順便做一個總結
字符串匹配:
---willamette
在匹配串中尋找模式串是否出現,注意和最長公共子序列相區別(LCS: Longest Common Substring)
-: Brute Force(BF或蠻力搜索) 算法:
這是世界上最簡單的算法了。
首先將匹配串和模式串左對齊,然後從左向右一個一個進行比較,如果不成功則模式串向右移動一個單位。
速度最慢。
那麼,怎麼改進呢?
我們注意到Brute Force 算法是每次移動一個單位,一個一個單位移動顯然太慢,是不是可以找到一些辦法,讓每次能夠讓模式串多移動一些位置呢?
當然是可以的。
我們也注意到,Brute Force 是很不intelligent 的,每次匹配不成功的時候,前面匹配成功的信息都被當作廢物丟棄了,當然,就如現在的變廢爲寶一樣,我們也同樣可以將前面匹配成功的信息利用起來,極大地減少計算機的處理時間,節省成本。^_^
注意,蠻力搜索算法雖然速度慢,但其很通用,文章最後會有一些更多的關於蠻力搜索的信息。
-: KMP算法
首先介紹的就是KMP 算法。
原始論文:Knuth D.E., Morris J.H., and Pratt V.R., Fast pattern matching in strings, SIAM Journal on Computing, 6(2), 323-350, 1977.
這個算法實在是太有名了,大學上的算法課程除了最笨的Brute Force 算法,然後就介紹了KMP 算法。也難怪,呵呵。誰讓Knuth D.E. 這麼world famous 呢,不僅拿了圖靈獎,而且還寫出了計算機界的Bible <The Art of Computer Programming>( 業內人士一般簡稱TAOCP). 稍稍提一下,有個叫H.A.Simon 的傢伙,不僅拿了Turing Award ,順手拿了個Nobel Economics Award ,做了AI 的爸爸,還是Chicago Univ 的Politics PhD ,可謂全才。
KMP 的思想是這樣的:
利用不匹配字符的前面那一段字符的最長前後綴來儘可能地跳過最大的距離
比如
模式串ababac 這個時候我們發現在c 處不匹配,然後我們看c 前面那串字符串的最大相等前後綴,然後再來移動
下面的兩個都是模式串,沒有寫出來匹配串
原始位置 ababa c
移動之後 aba bac
因爲後綴是已經匹配了的,而前綴和後綴是相等的,所以直接把前綴移動到原來後綴處,再從原來的c 處,也就是現在的第二個b 處進行比較。 這就是KMP 。
-:Horspool算法
Horspool 算法。
當然,有市場就有競爭,字符串匹配這麼大一個市場,不可能讓BF 和KMP 全部佔了,於是又出現了幾個強勁的對手。
第一個登場的是
論文:Horspool R.N., 1980, Practical fast searching in strings, Software - Practice & Experience, 10(6):501-506
Horspool 算法的思想很簡單的。不過有個創新之處就是模式串是從右向左進行比較的。很好很強大,爲後來的算法影響很大。
匹配串:abcbc sdxzcxx
模式串:cbcac
這個時候我們從右向左進行對暗號,c-c ,恩對上了,第二個b-a ,不對啊,我們應該怎麼辦?難道就這麼放棄麼。於是,模式串從不匹配的那個字符開始從右向左尋找匹配串中不匹配的字符b 的位置,結果發現居然有,趕快對上趕快對上,別耽誤了。
匹配串:abcbcsd xzcxx
模式串: cbcac
然後繼續從最右邊的字符從右向左進行比較。這時候,我們發現了,d-c 不匹配啊,而且模式穿裏面沒有噢,沒辦法,只好移動一個模式串長度的單位了。
匹配串:abcbcsdxzcxx
模式串: cbcac
-:Boyer-Moore算法
第二個上來的是Boyer-Moore 算法。
是一個很複雜的算法,當然,雖然理論上時間複雜度和KMP 差不多,但是實際上卻比KMP 快數倍,可見實踐是檢驗真理的唯一標準。
原始論文:R.S.Boyer, J.S.Moore, A fast string searching algorithm , Communications of the ACM,20(10):762-772 ,1977
分爲兩步預處理,第一個是bad-character heuristics ,也就是當出現錯誤匹配的時候,移位,基本上就是做的Horspool 那一套。
第二個就是good-suffix heuristics ,當出現錯誤匹配的時候,我還要從不匹配點向左看啊,以前匹配的那段子字符串是不是在模式串本身中還有重複的啊,有重複的話,那麼我就直接把重複的那段和匹配串中已經匹配的那一段對齊就是了。再比較
匹配串:abaccba bbazz
模式串:cbadcba
我們看到已經匹配好了cba ,但是c-d 不匹配,這個時候我們發現既可以採用bad-character heuristics ,也可以使用good-suffix heuristics( 模式串:cba dcba ) ,在這種情況下,邪不壓正。毅然投奔good 。移動得到
匹配串:abaccbabbaz z
模式串: cbadcba
可是,我們有時候也發現,已經匹配好的那一部分其實並沒有再有重複了的啊。這個時候,我們發現已經匹配好的那串字符串有一部分在開頭重新出現了,那麼,趕快,對齊吧。
匹配串:abacccb bbazz
模式串:cbadccb
然後得到
匹配串:abacccbbbazz
模式串: cbadccb
當兩種Good-Suffix 出現的時候,取移動距離最大的那個。
(
對於BM算法,好規則和壞規則,這裏講的不夠明確,下面推薦一個講解非常優秀的文章,可謂圖文並茂啊,而且還是個MM寫的。
Boyer-Moore 經典單模式匹配算法
http://blog.csdn.net/iJuliet/archive/2009/05/19/4200771.aspx
)
-:Sunday算法
最後一個是Sunday 算法,實際上比Boyer-Moore 還快,呵呵。長江後浪推前浪。
原始論文:Daniel M. Sunday, A very fast substring search algorithm, Communications of the ACM, v.33 n.8, p.132-142, Aug. 1990
看原始論文的題目,D.M. Sunday 貌似是故意想氣氣Boyer-Moore 兩位大牛似的。呵呵。不過實際上的確Sunday 算法的確比BM 算法要快,而且更簡單。
Sunday 的算法思想和Horspool 有些相似,但是。當出現不匹配的時候,卻不是去找匹配串中不匹配的字符在模式串的位置,而是直接找最右邊對齊的右一位的那個字符在模式串的位置。
比如:
匹配串:abcbc zdxzc
模式串:zbcac
恩,這裏我們看到b-a 沒有對上,我們就看匹配串中的z 在模式串的位置,然後,嘿嘿。
匹配串:abcbczdxzc
模式串: zbcac
如果模式串中的沒有那個字符怎麼辦呢?很簡單,跳過去唄。
匹配串:abcbc edxzcs
模式串:zbcac
e 不在模式串中出現
那麼我們就
匹配串:abcbcedxzcs
模式串: zbcac
(2009/10/20補充)
RK算法
某一天在圖書館的一本算法分析設計書上翻到的。思路很新穎!和大家分享下。
在串匹配的簡單算法中,把文本每m個字符構成的字符段作爲一個字段,和模式進行匹配檢查。如果能對一個長度爲m的字符
串賦以一個Hash函數。那麼顯然只有那些與模式具有相同hash函數值的文本中的字符串纔有可能與模式匹配,這是必要條件
,而沒有必要去考慮文本中所有長度爲m的字段,因而大大提高了串匹配的速度。因此RK算法的思想和KMP,BM,Sunday等思
路迥然不同!
(事實上,之前的串匹配方法,是將模式串的一個一個字符作爲小的特徵去分別進行匹配,而RK算法則是將串整體作爲一個
特徵!難就難在單個字符的特徵很容易想得到,整體作爲一個特徵就沒那麼容易想得到了)
如果把整體作爲一個特徵,那麼如何快速的求出這個整體特徵的特徵值??
模式串的特徵值僅需求一次即可。對於文本中的任意m個字符構成的字串如何快速的求特徵就是個難點了。
拋磚引玉,這裏給出一個簡單的特徵計算。 將字符串的每一個字符看做一個數,那麼這個字符串的就是一個數字數組,通
過積分向量可以快速任意一個長度子字符串的向量和。可以把字符串的對應的字符數組的元素和看做這個字符串整體特徵。
這個特徵是可以再O(1)的時間內求出的。其實原始的RK算法裏面是把字符串看做一個26進制數在計算特徵的。這裏就不囉
嗦了,有興趣的可以深入查找
aabsee sds 模式串 ees
ees
發現 see向量和 == ees的向量和
然後就對see和ees做逐個字符的比較。發現不匹配繼續往下走
aabsees ds 模式串 ees
ees
發現 ees向量和 == ees的向量和
然後就對ees和ees做逐個字符的比較。發現匹配OK。
另外還有 字符串匹配自動機 後綴樹算法(分在線和非在線兩種)等 見如下文章。不能說那個比那個更好,各個算法都有自己的優勢及最佳應用場合。參考:
http://blog.csdn.net/yifan403/archive/2009/06/16/4272793.aspx
另外,關於多模式字符串匹配 有AC算法(字符串匹配自動機思想) WM算法(BM在多模式的推廣應用)
參考:
http://blog.csdn.net/ijuliet/category/498465.aspx 該女子的blog有很多好文章。
/**********************華麗分割線******************************/
附上sunday代碼:
http://hi.baidu.com/kmj0217/blog/item/6f837f2f3da097311e3089cb.html
|
|
|
// 第三個代碼實現,貌似比較高效
http://hi.baidu.com/azuryy/blog/item/10d3d3460b97af0e6b63e5cd.html
頭文件定義:
/* Sunday.h */
class Sunday
{
public:
Sunday();
~Sunday();
public:
int find(const char* pattern, const char* text);
private:
void preCompute(const char* pattern);
private:
//Let's assume all characters are all ASCII
static const int ASSIZE = 128;
int _td[ASSIZE] ;
int _patLength;
int _textLength;
};
源文件
/* Sunday.cpp */
Sunday::Sunday()
{
}
Sunday::~Sunday()
{
}
void Sunday::preCompute(const char* pattern)
{
for(int i = 0; i < ASSIZE; i++ )
_td[i] = _patLength + 1;
const char* p;
for ( p = pattern; *p; p++)
_td[*p] = _patLength - (p - pattern);
}
int Sunday::find(const char* pattern, const char* text)
{
_patLength = strlen( pattern );
_textLength = strlen( text );
if ( _patLength <= 0 || _textLength <= 0)
return -1;
preCompute( pattern );
const char *t, *p, *tx = text;
while (tx + _patLength <= text + _textLength)
{
for (p = pattern, t = tx; *p; ++p, ++t)
{
if (*p != *t)
break;
}
if (*p == 0)
return tx-text;
tx += _td[tx[_patLength]];
}
return -1;
}
簡單測試下:
int main()
{
char* text = "blog.csdn,blog.net";
char* pattern = "csdn,blog" ;
Sunday sunday;
printf("The First Occurence at: %d/n",sunday.find(pattern,text));
return 1;
}
////////////////////////////////////////////
strstr的實現。
需要說明的是strstr是c語言提供的使用Brute Force實現的字符串匹配,簡單、通用是其最大的優點。時間複雜度是O(mn)
// 下面是Microsoft的實現
//經典算法
//比KMP算法簡單,沒有KMP算法高效
char * __cdecl strstr (
const char * str1,
const char * str2
)
{
char *cp = (char *) str1;
char *s1, *s2;
if ( !*str2 )
return((char *)str1);
while (*cp)
{
s1 = cp;
s2 = (char *) str2;
while ( *s1 && *s2 && !(*s1-*s2) )
s1++, s2++;
if (!*s2)
return(cp);
cp++;
}
return(NULL);
}
本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/whoismickey/archive/2009/02/08/3869367.aspx