Xapian是一款開源的C++信息檢索系統,提供了非常強大的功能。
國人喜歡跟風,收到某宴的影響,國人一直推崇Sphinx:與MySQL深度集成,開箱即用,非常傻瓜。但是它定製起來非常的麻煩,就連最基礎的中文分詞都要改好多地方纔能實現。
與市面上其他的信息檢索相比,Xapian類似於Lucene,提供豐富、可拓展的編程接口,讓Xapian能夠更好的融入你的系統中。同時,他的檢索性能又遠遠高於Lucene,並採用BM-25模型,具有更好的檢索效果。
至於大家最關心的中文問題,我可以負責任的說:雖然Xapian無內置的中文分詞算法,但是核心與分詞部分毫無耦合,只要藉助外置分詞器,即可無需改動任何Xapian代碼,實現對中文文本的索引和檢索。
另外:Xapian的發音爲Zap-in,X讀Z,大家不要搞錯了。(這是常識了,比如XEN發音就是Zen)
本系列文章不會說的很細,目標受衆是:
1)熟悉信息檢索的基本知識,如TF、IDF、BM25模型等
2)使用過至少一種開源信息檢索系統,如Lucene
Xapian的教程非常精簡,Documentation又是Doxygen生成的,我接觸Xapian也剛剛1天,因此很多地方都不是很詳細。我也是抱着邊寫邊學的心態,才能寫下這一系列的文章,如果有不對的地方,歡迎大家指正!
1、常用的數據結構
檢索相關:
Xapian::Database 用於讀取索引。
Xapian::Enquire 提供檢索服務,與Xapian::Database配合使用
Xapian::QueryParser 查詢語句解析器
Xapian::Query 查詢語句
Xapian::MSet 檢索返回的匹配結果記錄集
建索引相關
Xapian::WritableDatabase 用於建立索引。
Xapian::TermGenerator 非常簡單的切詞、建索引器,不是必須使用的,可用其他替代,但是提供了一些幫助函數,非常好用。
共用:
Xapian::Document 文檔的抽象。
Xapian::SimpleStopper 停用詞
Xapian::Error 異常類,.get_description()獲取詳細信息。
2、建立索引的步驟
(1)打開一個Xapian::WritableDatabase
(2)準備Document
可以用.set_data(string)設置負載數據,有且只能有一個
可以用.add_value(slot, string)設置附加域,可以有N個,slot不能是-1。
上述兩個都是Document中附加的,只存儲,不會被分詞和索引。
建立索引域的方法有兩種
a)Document.add_term(word, pos),一個詞+位置,一個詞+位置的放入。這樣顯然有點麻煩,於是有了b)方式。
b)建立Xapian::TermGenerator,.set_document(doc),然後將一段用空格分開的字符串傳入index_text。之後,doc中就會有這段文本的索引域了。
注意這裏我說的是用空格分開的字符串,也就是說,中文分詞的步驟我們可以直接拿到外面去做,處理好了再交給Xapian即可!
(3)Document準備完畢後,將其加入DB
(4)切記,一定要DB.commit(),這和Lucene是一樣的。
3、檢索流程
與建索引相比,檢索要複雜的多。
(1)打開Xapian::Database,路徑是建索引時候的WritableDatabase的路徑。
(2)用Db構造Xapian::Enquire,後者提供了檢索的接口。
(3)使用Xapian::QueryParser解析Query字符串,生成Xapian::Query。
(4)enquire.set_query(),進行檢索,說實話這個API真夠冏的……
(5)enquire.get_mset(start,len)返回結果集合,MSet,相當於支持分頁,這個太讚了!
(6)對返回的MSet遍歷使用Xapian::MSetIterator,get_rank()獲取排名,get_document返回檢索時對應的文檔。
4、檢索語法
檢索語法:
Term AND|OR|NOT Term …
Term -> Term|~Term
其中~表示同義詞(依賴於建索引時候額外提供的同義詞pair)
5、關於域的支持
最早的Xapian是不支持多個域的,現在雖然支持,但是沒有提供類似Lucene中add_field這樣的操作,而是採用了“前綴”和“映射”的方法。
它依賴於建索引和檢索時候分別提供額外的“前綴”和“前綴映射”。
(1)建立索引時,以Xapian::TermGenerator爲例
需要設置TermGenerator.set_database(db)
建索引域時,API如下:
index_text (const std::string &text, Xapian::termcount wdf_inc=1, const std::string &prefix=std::string())
後兩個是有默認數值的,第二個是tf增加量,最後一個是前綴,比如Title域,我們令prefix=“T”,Content域,prefix=”C”,這個前綴得是你自己定義好的,並且要前後一致!
(2)搜索時候,在Xapian::QueryParser中添加映射,.add_prefix(“title”, “T”),於是,我們給qp.parse_query的查詢字符串就可以包含域了!形如:
title:新聞 AND content:男籃
基礎的部分就說這麼多,看代碼吧。
源代碼:建立索引
#include <xapian.h>
#include <iostream>
using namespace std;
#define CONTENT "70比 69, 這是 男籃 亞錦賽 歷史上 的 最小 分 差 比賽 , 笑 到 最後 的是 東道主 中國隊 。 可以說 , 這是 一次 最 驚險 的 勝利 ; 也可 以 說 , 這是 中國男籃 最 幸運 的 結局 。終 > 場 哨 響 , 中國隊 主教練 鄧 華德 和 籃管中心 副主任 胡 加時 緊緊擁抱 在一 起 , 兩人 都 激動 得 熱淚盈眶 —— 中國隊 贏了 , 贏得 很 慶幸 。"
#define TITLE "這 是 一條 新聞"
#define INDEX_PATH "./index_data"
#define F_DOCID 1
int main()
{
try
{
//Text to be indexed
string content(CONTENT);
string title(TITLE);
//Open an Database for write
Xapian::WritableDatabase db(string(INDEX_PATH), Xapian::DB_CREATE_OR_OPEN);
//Prepare TermGenerator, just split word by space, not chinese analysis
Xapian::TermGenerator indexer;
//Make Document
Xapian::Document doc;
doc.add_value(F_DOCID, string("1104"));
doc.set_data(content);
indexer.set_document(doc);
indexer.index_text(title, 1, "T");
indexer.index_text(content, 1, "C");
//Add Document to db
db.add_document(doc);
//Flush to disk
db.commit();
}
catch(const Xapian::Error &e)
{
cout << e.get_description() << endl;
}
return 0;
}
源代碼:檢索
#include <xapian.h>
#include <iostream>
using namespace std;
#define QUERY "title:新聞 AND content:男籃"
#define INDEX_PATH "./index_data"
#define F_DOCID 1
int main()
{
try
{
//Query
string query_str(QUERY);
//Open an Database for read
Xapian::Database db(string(INDEX_PATH));
//Open Search Handle
Xapian::Enquire enquire(db);
//Parser Query
Xapian::QueryParser qp;
qp.add_prefix(
"title", "T");qp.add_prefix(
"content", "C");Xapian::Query query = qp.parse_query(query_str);
cout <<
"Query is " << query.get_description() << endl;//Find top 10 results
enquire.set_query(query);
Xapian::MSet result = enquire.get_mset(0, 10);
cout << result.get_matches_estimated() <<
" results found" << endl;//Print results
for
(Xapian::MSetIterator itr = result.begin(); itr!=result.end(); itr++){
Xapian::Document doc = itr.get_document();
cout << itr.get_rank() <<
": docid " << doc.get_value(F_DOCID) << ", data " << doc.get_data() << endl;}
}
catch(const Xapian::Error &e)
{
cout << e.get_description() << endl;
}
return 0;
}