该算法采用数字指纹的思想,欲求m位目标字符串 p 在文本T中相同子串的位置转化为求p的指纹fp与文本T中一个m位窗口子串的指纹ft的关系。
有以下假设:
1. 如果fp!=ft ,则p与该窗口子串不匹配
2. 可以在O (m) 时间内计算p的指纹fp
3. 可以在 O (1) 时间内比较fp 和 ft 的大小关系
4. 可以在 O (1) 时间内利用前一个ft 计算 窗口位移一位后子串的指纹ft'
理想化算法:
利用哈希函数特点缩短对m位目标字符串p计算指纹的时间 h = p mod q。
该思想可以延伸到二维空间
当d位字母的字母表时,可以采用d进制数替代字母。
#include <iostream>
#include <algorithm>
#include <string.h>
#include <ctype.h>
#include <vector>
#include <map>
#include <cmath>
#include <set>
#define MAX(a,b) (a)>(b)?(a):(b)
const int MAXSIZE = 4010;
using namespace std;
char T[50];
char p[20];
const int q = 97;
int Rabin_karpSearch(char *T, char *p){// Rabin-Karp算法,p为目标字串,T为文本
int m = strlen(p);
int n = strlen(T);
int k;
int c = ((int)pow(10, m-1) % q);// 预处理
int ft = 0, fp = 0;
for (int i = 0; i < m; i++){ //计算p和T的指纹fp和ft初始值
fp = (10 * fp + (p[i] - '0')) % q;
ft = (10 * ft + (T[i] - '0')) % q;
}
for (int j = 0; j <= n - m; j++){ //从T[0...n-m]移动m位的窗口
if (fp == ft){
for ( k = 0; k < m; k++){
if (p[k] != T[j + k])
break;
}
if (k == m)
return j;
}
ft = ((ft - c*(T[j] - '0')) * 10 + (T[j + m] - '0')) % q;//利用前一次的ft计算窗口向右移动一位的ft'
if (ft < 0) //保证ft > 0
ft += q;
}
return -1;
}
int main()
{
gets(T);
gets(p);
cout<<Rabin_karpSearch(T,p)<<endl;
return 0;
}