基於二分查找的單詞匹配
1、二分查找介紹
以升序數列爲例,比較一個元素與數列中的中間位置的元素的大小,如果比中間位置的元素大,則繼續在後半部分的數列中進行二分查找;如果比中間位置的元素小,則在數列的前半部分進行比較;如果相等,則找到了元素的位置。每次比較的數列長度都會是之前數列的一半,直到找到相等元素的位置或者最終沒有找到要找的元素。
2、匹配算法介紹
分爲四部分,第一是二分查找的核心,上面已經介紹了。
int binarysearch(int low, int high, char *key) {//key爲輸入的單詞
int mid = 0;
while (low <= high) {
mid = (low + high) / 2;
if (strcmp(key, dict[mid].word) == 0) {//匹配成功
return mid;
} else if (strcmp(key, dict[mid].word) > 0) {//key大於當前匹配到的單詞,則從該單詞開始的後一部分繼續匹配
low = mid + 1;
} else {//key小於當前匹配到的單詞,則從該單詞開始的前一部分繼續匹配
high = mid - 1;
}
}
return -1;//匹配不到返回-1
}
第二是文件的讀取,準備了一個單詞文件,裏面有單個單詞,也有以詞組的形式存在,需要特別處理的是詞組的讀取,因爲詞組中存在空格,要是用scanf的話只能一個一個的讀取,無法一部達到讀取詞組的效果,因此採用了以下的方法。
void readdict(char dictname[]) {
char item[64];
int i;
FILE *f = fopen(dictname, "r");
for (i=0; i < N; ++i) {//N爲單詞文件ps_ec.txt的長度
fscanf(f, "%s", dict[i].word);
while (fscanf(f, "%s", item), isalpha(item[0]) > 0) {//isalpha()判斷輸入的是字母
strcat(dict[i].word, " ");//字符串拼接
strcat(dict[i].word, item);
}
strcpy(dict[i].meaning, item);//單詞中文解釋
}
fclose(f);
}
第三是單詞的查找部分,通過接收二分查找模塊返回的值,然後根據返回值判斷是否匹配到相應的單詞。
void find(char word[64]) {
int dect=binarysearch(0, N - 1, word);//二分查找模塊返回值
if(dect!=-1) {
printf("\t%s\n",dict[dect].meaning);//輸出匹配的單詞解釋
} else {
printf("無匹配單詞!\n");
}
}
第四是main函數模塊,這個程序實在Linux環境下執行的,因此在main中多了兩個要用到的參數。
int main(int argc, char *argv[]) {//argc記錄命令行中輸入的字符串個數,argv存入輸入的單詞
char word[64];
if (argc < 1)//輸入小於2
return 1;
readdict(argv[1]);//讀取單詞文件
while (fgets(word, 63, stdin) > 0) {//fgets(輸入的單詞,限定長度,標準輸入)
word[strlen(word) - 1] = '\0';//去掉換行符
find(word);//調用查找模塊
}
}
3、完整代碼
#include <stdio.h>
#include <string.h>
#include <ctype.h>
#define N 660
typedef struct {
char word[64];
char meaning[128];
} node;
node dict[N];
int binarysearch(int low, int high, char *key) {//key爲輸入的單詞
int mid = 0;
while (low <= high) {
mid = (low + high) / 2;
if (strcmp(key, dict[mid].word) == 0) {//匹配成功
return mid;
} else if (strcmp(key, dict[mid].word) > 0) {//key大於當前匹配到的單詞,則從該單詞開始的後一部分繼續匹配
low = mid + 1;
} else {//key小於當前匹配到的單詞,則從該單詞開始的前一部分繼續匹配
high = mid - 1;
}
}
return -1;//匹配不到返回-1
}
void find(char word[64]) {
int dect=binarysearch(0, N - 1, word);//二分查找模塊返回值
if(dect!=-1) {
printf("\t%s\n",dict[dect].meaning);//輸出匹配的單詞解釋
} else {
printf("無匹配單詞!\n");
}
}
void readdict(char dictname[]) {
char item[64];
int i;
FILE *f = fopen(dictname, "r");
for (i=0; i < N; ++i) {//N爲單詞文件ps_ec.txt的長度
fscanf(f, "%s", dict[i].word);
while (fscanf(f, "%s", item), isalpha(item[0]) > 0) {//isalpha()判斷輸入的是字母
strcat(dict[i].word, " ");//字符串拼接
strcat(dict[i].word, item);
}
strcpy(dict[i].meaning, item);//單詞中文解釋
}
fclose(f);
}
int main(int argc, char *argv[]) {//argc記錄命令行中輸入的字符串個數,argv存入輸入的單詞
char word[64];
if (argc < 1)//輸入小於2
return 1;
readdict(argv[1]);//讀取單詞文件
while (fgets(word, 63, stdin) > 0) {//fgets(輸入的單詞,限定長度,標準輸入)
word[strlen(word) - 1] = '\0';//去掉換行符
find(word);//調用查找模塊
}
}
4、相關文件:Github