學習Xapian(1) – 基礎的建索引和搜索

Xapian是一款開源的C++信息檢索系統，提供了非常強大的功能。

國人喜歡跟風，收到某宴的影響，國人一直推崇Sphinx：與MySQL深度集成，開箱即用，非常傻瓜。但是它定製起來非常的麻煩，就連最基礎的中文分詞都要改好多地方纔能實現。

與市面上其他的信息檢索相比，Xapian類似於Lucene，提供豐富、可拓展的編程接口，讓Xapian能夠更好的融入你的系統中。同時，他的檢索性能又遠遠高於Lucene，並採用BM-25模型，具有更好的檢索效果。

至於大家最關心的中文問題，我可以負責任的說：雖然Xapian無內置的中文分詞算法，但是核心與分詞部分毫無耦合，只要藉助外置分詞器，即可無需改動任何Xapian代碼，實現對中文文本的索引和檢索。

另外：Xapian的發音爲Zap-in，X讀Z，大家不要搞錯了。（這是常識了，比如XEN發音就是Zen）

本系列文章不會說的很細，目標受衆是：
1)熟悉信息檢索的基本知識，如TF、IDF、BM25模型等
2)使用過至少一種開源信息檢索系統，如Lucene

Xapian的教程非常精簡，Documentation又是Doxygen生成的，我接觸Xapian也剛剛1天，因此很多地方都不是很詳細。我也是抱着邊寫邊學的心態，才能寫下這一系列的文章，如果有不對的地方，歡迎大家指正！

1、常用的數據結構

檢索相關：
Xapian::Database 用於讀取索引。
Xapian::Enquire 提供檢索服務，與Xapian::Database配合使用
Xapian::QueryParser 查詢語句解析器
Xapian::Query 查詢語句
Xapian::MSet 檢索返回的匹配結果記錄集

建索引相關
Xapian::WritableDatabase 用於建立索引。
Xapian::TermGenerator 非常簡單的切詞、建索引器，不是必須使用的，可用其他替代，但是提供了一些幫助函數，非常好用。

共用：
Xapian::Document 文檔的抽象。
Xapian::SimpleStopper 停用詞
Xapian::Error 異常類，.get_description()獲取詳細信息。

2、建立索引的步驟

(1)打開一個Xapian::WritableDatabase
(2)準備Document
可以用.set_data(string)設置負載數據，有且只能有一個
可以用.add_value(slot, string)設置附加域，可以有N個，slot不能是-1。
上述兩個都是Document中附加的，只存儲，不會被分詞和索引。
建立索引域的方法有兩種
a)Document.add_term(word, pos)，一個詞+位置，一個詞+位置的放入。這樣顯然有點麻煩，於是有了b)方式。
b)建立Xapian::TermGenerator，.set_document(doc)，然後將一段用空格分開的字符串傳入index_text。之後，doc中就會有這段文本的索引域了。
注意這裏我說的是用空格分開的字符串，也就是說，中文分詞的步驟我們可以直接拿到外面去做，處理好了再交給Xapian即可！
(3)Document準備完畢後，將其加入DB
(4)切記，一定要DB.commit()，這和Lucene是一樣的。

3、檢索流程

與建索引相比，檢索要複雜的多。
(1)打開Xapian::Database，路徑是建索引時候的WritableDatabase的路徑。
(2)用Db構造Xapian::Enquire，後者提供了檢索的接口。
(3)使用Xapian::QueryParser解析Query字符串，生成Xapian::Query。
(4)enquire.set_query()，進行檢索，說實話這個API真夠冏的……
(5)enquire.get_mset(start,len)返回結果集合，MSet，相當於支持分頁，這個太讚了！
(6)對返回的MSet遍歷使用Xapian::MSetIterator，get_rank()獲取排名，get_document返回檢索時對應的文檔。

4、檢索語法

檢索語法：
Term AND|OR|NOT Term …
Term -> Term|~Term
其中~表示同義詞（依賴於建索引時候額外提供的同義詞pair）

5、關於域的支持

最早的Xapian是不支持多個域的，現在雖然支持，但是沒有提供類似Lucene中add_field這樣的操作，而是採用了“前綴”和“映射”的方法。
它依賴於建索引和檢索時候分別提供額外的“前綴”和“前綴映射”。
(1)建立索引時，以Xapian::TermGenerator爲例
需要設置TermGenerator.set_database(db)
建索引域時，API如下：
index_text (const std::string &text, Xapian::termcount wdf_inc=1, const std::string &prefix=std::string())
後兩個是有默認數值的，第二個是tf增加量，最後一個是前綴，比如Title域，我們令prefix=“T”,Content域，prefix=”C”，這個前綴得是你自己定義好的，並且要前後一致！
(2)搜索時候，在Xapian::QueryParser中添加映射，.add_prefix(“title”, “T”)，於是，我們給qp.parse_query的查詢字符串就可以包含域了！形如：

title:新聞 AND content:男籃

基礎的部分就說這麼多，看代碼吧。

源代碼：建立索引

#include <xapian.h>
#include <iostream>
using namespace std;
#define CONTENT "70比 69，這是男籃亞錦賽歷史上的最小分差比賽，笑到最後的是東道主中國隊。可以說，這是一次最驚險的勝利；也可以說，這是中國男籃最幸運的結局。終 > 場哨響，中國隊主教練鄧華德和籃管中心副主任胡加時緊緊擁抱在一起，兩人都激動得熱淚盈眶 —— 中國隊贏了，贏得很慶幸。"
#define TITLE "這是一條新聞"
#define INDEX_PATH "./index_data"
#define F_DOCID 1
int main()
{
try
{

//Text to be indexed

string content(CONTENT);

string title(TITLE);

//Open an Database for write

Xapian::WritableDatabase db(string(INDEX_PATH), Xapian::DB_CREATE_OR_OPEN);

//Prepare TermGenerator, just split word by space, not chinese analysis

Xapian::TermGenerator indexer;

//Make Document

Xapian::Document doc;

doc.add_value(F_DOCID, string("1104"));

doc.set_data(content);

indexer.set_document(doc);

indexer.index_text(title, 1, "T");

indexer.index_text(content, 1, "C");

//Add Document to db

db.add_document(doc);

//Flush to disk

db.commit();

}

catch(const Xapian::Error &e)

{

cout << e.get_description() << endl;

}

return 0;

}

源代碼：檢索

#include <xapian.h>

#include <iostream>

using namespace std;

#define QUERY "title:新聞 AND content:男籃"

#define INDEX_PATH "./index_data"

#define F_DOCID 1

int main()

{

try

{

//Query

string query_str(QUERY);

//Open an Database for read

Xapian::Database db(string(INDEX_PATH));

//Open Search Handle

Xapian::Enquire enquire(db);

//Parser Query

Xapian::QueryParser qp;

qp.add_prefix(
"title", "T");

qp.add_prefix(
"content", "C");

Xapian::Query query = qp.parse_query(query_str);

cout <<
"Query is " << query.get_description() << endl;

//Find top 10 results

enquire.set_query(query);

Xapian::MSet result = enquire.get_mset(0, 10);

cout << result.get_matches_estimated() <<
" results found" << endl;

//Print results

for
(Xapian::MSetIterator itr = result.begin(); itr!=result.end(); itr++)

{

Xapian::Document doc = itr.get_document();

cout << itr.get_rank() <<
": docid " << doc.get_value(F_DOCID) << ", data " << doc.get_data() << endl;

}

}

catch(const Xapian::Error &e)

{

cout << e.get_description() << endl;

}

return 0;

}

學習Xapian(1) – 基礎的建索引和搜索

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

Xapian:Database

sphinx 配置文件說明

leveldb實現原理

pdf轉png

__thread關鍵字

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結