MySQL 高級特性(9):全文索引使用指南

在 MySQL 中,我們經常使用 WHERE 條件用於進行值的相等比較、範圍過濾。然而,我們也會使用關鍵字進行搜索,這個基於搜索值與其他值的相關性來進行過濾。MySQL全文檢索即用於這種場景。本篇將介紹如何使用全文檢索。

全文索引需要特殊的查詢語法。有沒有索引都可以進行全文檢索,但是存在索引時會提高匹配的速度。全文索引的索引通過特殊的結構存儲以便於找到文檔中包含搜索關鍵字對應的內容。在我們日常生活中,最常見的全文檢索就是網絡搜索引擎。雖然,網絡搜索引擎的數據裏十分龐大,並且通常也不會使用關係型數據庫,但是原理是相似的。

全文索引支持通過基於字符(CHAR、VARCHAR 和 TEXT 類型的列)的檢索,也可以支持自然語言模式(Natural Language Mode, 默認)和布爾模式 (Boolean Mode)。例如我們搜索“數據庫引擎”的時候,內容中包括“數據庫”、“引擎”和“數據庫引擎”的內容都會檢索出來。全文索引的實現有大量的限制,而且十分複雜。但是由於內置在MySQL服務端,而且對很多應用都能夠滿足要求,因此被廣泛使用。

在MySQL5.6之前的版本中,只有 MyISAM 存儲引擎支持全文索引。創建全文索引需要指定列標記爲全文索引,如下面的 content 列。

CREATE TABLE t_news (
    id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
    content TEXT,
    author VARCHAR(32),
    title VARCHAR(128),
  FULLTEXT (content)
) ENGINE=InnoDB;

MySQL 5.6以前對中文搜索支持不是太好,需要自己進行分詞後將段落預處理拆分成單詞在入庫。MySQL5.7.6後纔有了內置的分詞器 ngram。ngram 支持設置設置分詞的長度,可以將中文按長度拆分爲不同的單詞(雖然不太智能,但滿足大部分場景)。可以通過 MySQL 的全局變量ngram_token_size設置分詞長度,默認是2,支持1-10可選。對於上面的例子,需要指定分詞器構建全文索引。

CREATE TABLE t_news (
  id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
    content TEXT,
    author VARCHAR(32),
    title VARCHAR(128),
  FULLTEXT KEY idx(content) WITH PARSER ngram
) ENGINE=InnoDB;

插入一條數據測試。

INSERT INTO `t_news` 
(`id`, `content`, `author`, `title`) 
VALUES ('1', '我有一個數據庫和引擎', '島上碼農', '數據庫引擎');

在簡單的模糊搜索中可以使用 LIKE 來完成,而對於全文檢索需要使用如下方式的語句:

SELECT * FROM t_news 
WHERE MATCH (content) AGAINST ('數據 引擎' IN NATURAL LANGUAGE MODE)

通過這種方式可以檢索出剛剛插入的內容,而如果使用 LIKE 是沒法完成的。也支持使用相關性排序,再插入一條數據:

INSERT INTO `t_news`
(`id`, `content`, `author`, `title`) 
VALUES (2,'我有一個數據庫','島上碼農','數據庫')

然後執行排序查詢:

SELECT *, MATCH (content) AGAINST ('數據 引擎' ) AS relevance
FROM t_news 
WHERE MATCH (content) AGAINST ('數據 引擎' ) 
ORDER BY relevance ASC

這裏將匹配值作爲一列查詢,以便使用其別名進行排序。相關性越高,對應的 relevance 值越大,因此可以用作排序。入股不相關,那麼 relevance 的值爲0。

布爾模式可以做更多的控制,例如包括使用+號保留匹配結果和使用-號排除匹配結果,下面的就匹配了數據,而排除了包含引擎的數據。更多操作符可以參考 MySQL 的官方文檔:全文索引操作符

SELECT * FROM t_news 
WHERE MATCH (content) AGAINST ('+數據* -引擎' IN BOOLEAN MODE);
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章