MySQL:如何編寫全文索引插件

轉載請署名:印風

1.簡介

全文索引插件用於對MYISAM的全文檢索特性進行擴展。通過全文檢索,我們可以對文檔、圖片或者視頻等豐富的數據類型進行分詞,建立索引,以便進行快速的檢索。

目前MySQL僅在MYISAM存儲引擎裏支持全文檢索,而對於innodb,則要在6.0以後的版本中才會實現。

但目前全文索引也有着如下的限制:

1.        只支持MyISAM

2.        不支持中文

3.        如果支持在一個單獨表中使用多個字符集,則所有fulltext索引的列必須使用完全一樣的字符集和庫

4.        MATCH()列列表必須同該表中一些FULLTEXT索引定義中的列列表完全符合,除非MATCH()在IN BOOLEAN MODE

5.        對AGAINST() 的參數必須是一個常數字符串。

 

那麼Full Text Plugin在這其中扮演什麼樣的角色呢。MYISAM本身自帶的分詞程序會將列裏面的數據進行分詞存儲到全文索引裏,同時也會使用分詞來處理查詢中出現的字符串;Full Text Plugin可以完全接管該功能。

例如,我們可以通過Plugin實現對多媒體數據的分詞檢索,可以使用自己的算法進行分詞,甚至可以改變全文檢索的語法。

 

 

2. 如何編寫Full Text Plugin

插件的編寫主要包括: init、deinit以及parse程序;每次執行sql之前會調用一次init(),執行完成後會調用deinit函數。Parse()函數在執行SQL的過程中進行語法分析

 

1)聲明插件

結構體st_mysql_ftparser用於聲明一個full text插件

struct st_mysql_ftparser

{

  intinterface_version;

  int(*parse)(MYSQL_FTPARSER_PARAM *param);

  int(*init)(MYSQL_FTPARSER_PARAM *param);

  int(*deinit)(MYSQL_FTPARSER_PARAM *param);

};

字段

類型

描述

interface_version

int

版本號

parse

int (*parse)(MYSQL_FTPARSER_PARAM *param);

語法分析程序

init

int (*init)(MYSQL_FTPARSER_PARAM *param);

初始化函數,函數指針

deinit

int (*deinit)(MYSQL_FTPARSER_PARAM *param);

清理函數,函數指針

 

可以看到,這三個函數公用一種參數類型:MYSQL_FTPARSER_PARAM,這個結構體由MySQL來初始化,但我們同樣可以修改其函數指針,以使用自定義的函數,結構體如下:

 

字段

類型

描述

mysql_parse

int (*mysql_parse)(struct st_mysql_ftparser_param *,

char *doc, int doc_len)

默認指向mysql內建的全文分詞函數。

mysql_add_word

int (*mysql_add_word)(struct st_mysql_ftparser_param *,

char *word, int word_len,

MYSQL_FTPARSER_BOOLEAN_INFO *)

用於對每個分解的單詞進行處理;通常會把這些單詞加到一顆樹或列表裏。並在結束後插入/更新/刪除全文索引裏的記錄

ftparser_state

void *

我們可以在該指針分配額外的內存,用於在不同的API接口間傳遞

mysql_ftparam

void *

由MySQL內部使用,將信息傳遞給mysql_parse和mysql_add_word,編寫plugin時無需修改

cs

struct charset_info_st *

文檔的字符集

doc

char *

需要被解析的文檔,例如,我們可以填寫一個url,那麼在語法分析程序裏。我們可以讀取到Url對應的文件,再進行分析

length

int

文檔的長度,這是因爲doc可能並不是以\0結尾的,我們在寫plugin時需要注意這一點

flags

int

目前僅有一個選項:MYSQL_FTFLAGS_NEED_COPY。該選項用於告訴mysql_add_word需要一份單詞的拷貝;內建的mysql_parse()無需指定該Flag,這是因爲其使用doc的指針,而doc在離開函數後也是有效的

mode

enum enum_ftparser_mode

操作的類型,主要包括以下幾種:

MYSQL_FTPARSER_SIMPLE_MODE :解析程序僅返回需要的單詞,剔除停詞、過濾詞

MYSQL_FTPARSER_WITH_STOPWORDS :用於布爾查詢的單詞匹配,這種情況下需要考慮所有的單詞,包括停詞

MYSQL_FTPARSER_FULL_BOOLEAN_ INFO :用於解析一個包含布爾操作符的布爾查詢字符串;這種情況下,我們需要

設置mysql_add_word的參數——MYSQL_FTPARSER_BOOLEAN_INFO


 

 

當mode被設置爲MYSQL_FTPARSER_FULL_BOOLEAN_ INFO時。我們需要爲函數mysql_add_word設置其最後一個參數,我們再看該函數的原型:

int (*mysql_add_word)(structst_mysql_ftparser_param *,

char *word, int word_len,

MYSQL_FTPARSER_BOOLEAN_INFO *);

 

最後一個參數結構體爲MYSQL_FTPARSER_BOOLEAN_INFO,也就是結構體st_mysql_ftparser_boolean_info,如下所示:

字段

類型

描述

type

enum enum_ft_token_type

用於標示token的類型,有如下幾種:

FT_TOKEN_EOF :

無需設置

FT_TOKEN_WORD :

表示普通的單詞

FT_TOKEN_STOPWORD:

停詞 ,建立索引時會被忽略

FT_TOKEN_LEFT_PAREN :

表示一個子表達式開始

FT_TOKEN_RIGHT_PAREN :

表示一個子表達式結束

yesno

int

用於支持布爾操作:

>0 單詞必須要匹配,對應 +

<0 不允許匹配,對應 -

=0 可能匹配,會增加關聯度

weight_adjust

int

關聯詞的重要性、

>0, 對應於>操作符

<0,  對應於<操作符

 

wasign

char

單詞的重要性:

非0 表示噪音單詞,會減少關聯度,對應於操作符 ~

trunc

char

如果爲非0,則單詞被認爲是一個前綴,所有以此爲前綴的都會被匹配,對應的操作符爲 *

prev

char

忽略

quot

char*

對應於””雙引號操作符

 

爲了幫助大家瞭解布爾查詢,這裏摘錄一段MySQL手冊裏的相關描述。如下:

 

1.      'applebanana'

尋找包含至少兩個單詞中的一個的行。

 

2.      '+apple+juice'

尋找兩個單詞都包含的行。

 

3.      '+applemacintosh'

尋找包含單詞“apple”的行,若這些行也包含單詞“macintosh”,則列爲更高等級。

 

4.      '+apple-macintosh'

尋找包含單詞“apple”但不包含單詞 “macintosh”的行。

 

5.      '+apple+(>turnover <strudel)'

尋找包含單詞“apple”和“turnover”的行,或包含“apple”和“strudel”的行 (無先後順序),然而包含“apple turnover”的行較包含“apple strudel”的行排列等級更爲高。

 

6.      'apple*'

尋找包含“apple”、“apples”、“applesauce”或“applet”的行。

 

7.      '"somewords"'

尋找包含原短語“some words”的行 (例如,包含“some words of wisdom”的行,而非包含 “some noisewords”的行)。注意包圍詞組的‘"’符號是界定短語的操作符字符。它們不是包圍搜索字符串本身的引號。

full text plugin的工作流程如下圖所示:

 


下面,我們通過一個簡單的例子來理解創建Full Text Plugin的過程

 

2)示例:對內建的布爾操作符進行改進,實現AND、OR和NOT操作(摘自<mysql plugin development>)

實現思路:

基本思想是通過預讀取的方法,在讀單詞時總是向後看有沒有操作符,以決定當前單詞的yesno,即是否是需要匹配的單詞。

Ø  在AND前後的word yesno= 1

Ø  對於foo AND NOTbar  需要向前看兩個單詞

Ø  wd1 OR wd2 ,前後的yesno = 0. 但當包含AND時,例如wd1 or wd2 and wd3,wd2的yesno = 1;

Ø  對於類似wd1 andwd2 or wd3 and wdb4,需要使用子表達式來分離AND和OR

Ø  如果沒有使用操作符,例如wd1 wd2 轉換爲wd1 OR wd2

 

代碼如下:

 

/*必要的頭文件*/
#include <mysql/plugin.h>
#include <stdio.h>
#include <ctype.h>
#include <string.h>
 
 
/*用於輔助記錄分詞*/
typedef struct{
   char *start;  //在字符串中的起始指針
   int len;      //長度
   int yesno;     //是否被忽略
}WORD;
 
 
/*找到s和end間的第一個單詞*/
static char *get_word(WORD *word, char *s,char *end)
{
   word->yesno = 0;
   while (s < end && !isalnum(*s))
       s++;
 
   word->start = s;
   while (s < end && isalnum(*s))
       s++;
 
   word->len = s - word->start;
   return s;
}
 
static int andor_parse(MYSQL_FTPARSER_PARAM*param)
{
/*需要解析的文檔*/
char *end = param->doc + param->length;
char *s = param->doc;
WORD word, next;
 
MYSQL_FTPARSER_BOOLEAN_INFO bool_info =
{ FT_TOKEN_WORD, 0, 0, 0, 0, 0, 0 };
 
/*獲取第一個單詞*/
s = get_word(&next, s, end);
for (;;)
{
     word = next;
 
 /*向後看一個單詞*/
  s    = get_word(&next, s, end);
 
/*已解析完文檔,返回0*/
  if (word.start >= end)
return 0;
 
/*首先判斷是否爲boolean mode*/
if(param->mode == MYSQL_FTPARSER_FULL_BOOLEAN_INFO)
{
  /*檢查下一個單詞是否爲AND*/
  if(next.start < end && strncasecmp(next.start, "and", next.len)== 0) {
    if (word.yesno == 0){ //當前單詞之前沒有AND
       bool_info.yesno = 0;
       bool_info.type  = FT_TOKEN_LEFT_PAREN;
                   /*增加子表達式開始標記*/
       param->mysql_add_word(param, 0, 0,&bool_info);
       /*置當前單詞yesno爲1,表示不可忽略*/
word.yesno = 1;
 }
 
/*讀下一個單詞*/
s =get_word(&next, s, end);
 
/*如果下一個單詞爲”not”  例如,word1 and notword2*/
if (next.start< end && strncasecmp(next.start, "not", next.len) == 0) {
    /*繼續讀下一個單詞*/
      s = get_word(&next, s , end);
        /*忽略該單詞*/
next.yesno  = -1;
     }else
         next.yesno= 1; //AND的下一個單詞
 }
else
if (next.start< end  &&strncasecmp(next.start, "or", next.len) == 0)  //下一個單詞爲or
    /*獲取下一個單詞*/
s = get_word(&next, s, end);
    bool_info.type  = FT_TOKEN_WORD;
    bool_info.yesno = word.yesno;
}
 
/*將當前單詞加入到param中*/
param->mysql_add_word(param,word.start, word.len, &bool_info);
 
/*if there isAND before current word and no AND after it ,need to end subexpression*/
 
/*如果當前詞之前有AND,並且當前詞之後沒有AND,則結束子表達式*/
 if (word.yesno && !next.yesno){
      bool_info.type = FT_TOKEN_RIGHT_PAREN;
      param->mysql_add_word(param, 0, 0,&bool_info);
 }
}
}
 
 
/*聲明插件結構體*/
static struct st_mysql_ftparser ft_andor =
{
   MYSQL_FTPARSER_INTERFACE_VERSION,
   audor_parse,
   NULL,          /*init,SET NULL */
   NULL          /*deinit,SET NULL*/
};
 
mysql_declare_plugin(andor)
{
   MYSQL_FTPARSER_PLUGIN,
   &ft_andor,
   "andor",
   "Sergei Golubchik",
   "A Full-Text AND/OR boolean parser",
   PLUGIN_LICENSE_GPL,
   NULL,
   NULL,
   0x0100,
   NULL,
   NULL,
   NULL
}
mysql_declare_plugin_end;


參考:

《MySQL Plugin Development》

MySQL5.1.48源代碼

發佈了124 篇原創文章 · 獲贊 11 · 訪問量 22萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章