添加中文分詞:sphinx for chinese
Sphinx/結果分組
- SPH_GROUPBY_DAY, 從時間戳中按YYYYMMDD格式抽取年、月、日;
- SPH_GROUPBY_WEEK, 從時間戳中按YYYYNNN格式抽取年份和指定週數(自年初計起)的第一天;
- SPH_GROUPBY_MONTH, 從時間戳中按YYYYMM格式抽取月份;
- SPH_GROUPBY_YEAR, 從時間戳中按YYYY格式抽取年份;
- SPH_GROUPBY_ATTR, 使用屬性值自身進行分組.
有時將搜索結果分組(或者說“聚類”)並對每組中的結果計數是很有用的-例如畫個漂亮的圖來展示每個月有多少的blog日誌,或者把Web搜索結果按站點分組,或者把找到的論壇帖子按其作者分組。
Sphinx 排序模式 SetSortMode
- SPH_SORT_RELEVANCE 模式, 按相關度降序排列(最好的匹配排在最前面)
- SPH_SORT_ATTR_DESC 模式, 按屬性降序排列 (屬性值越大的越是排在前面)
- SPH_SORT_ATTR_ASC 模式, 按屬性升序排列(屬性值越小的越是排在前面)
- SPH_SORT_TIME_SEGMENTS 模式, 先按時間段(最近一小時/天/周/月)降序,再按相關度降序
- SPH_SORT_EXTENDED 模式, 按一種類似SQL的方式將列組合起來,升序或降序排列。
- SPH_SORT_EXPR 模式,按某個算術表達式排序。
多語言篇:
---------------------------------------------------------------------------------
俄語配置筆記:
morphology morphology = none
# 可設定的屬性有 'none', 'stem_en', 'stem_ru', 'stem_enru', 'soundex', and 'metaphone'.
這篇俄語的說明文檔說明了步驟:
https://training.bitrix24.com/support/training/course/?COURSE_ID=20&LESSON_ID=6630
這裏也有說明,不過忽略他寫的安裝步驟(人家還是整體安裝說明,順便附帶了俄語的配置)
директивы, которые могут отличаться на разных окружениях:
log
query_log
pid_file
binlog_path
lemmatizer_base
path
charset_type - зависит от кодировки сайта
2. Скачать морфологические словари тут - http://sphinxsearch.com/downloads/dicts/ (ru.pak, en.pak, de.pak) и скопировать их в папку из директивы - lemmatizer_base
3. Перезапустить sphinx
4. В настройках модуля Поиска в закладке "Морфология" выбрать поиск Sphinx, указать название индекса (в примере - bitrix, секция в конфиге - index bitrix).
官網,俄語論壇是搜索一下
lemmatize_ru_all
lemmatize_ru
sphinx調用地址的絕對路徑:
lemmatizer_base = /usr/local/share/sphinx/dicts
lemmatizer_base = /ru.pak
morphology = lemmatize_ru_all
В общем, суть в заголовке. ОС - Win 8 (на линуксе пока не получается проверить), версия
php 5.3.17
index posts
{
source = posts
path = C:\Sphinx/data/posts
docinfo = extern
charset_type = utf-8
charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F,
U+401->U+0435, U+451->U+0435
# Индекс с учетом морфологии
morphology = lemmatize_ru_all, stem_en
# Минимальная длина слова для индексации
min_word_len = 1
expand_keywords = 1
# Из данных источника HTML-код нужно вырезать
html_strip = 1
}
indexer
{
mem_limit = 256M
lemmatizer_base = C:/Sphinx/data/dict
lemmatizer_cache = 256M
}
Сообщение консольки:
index `posts`: search error: failed to open ./ru.pak: Bad file descriptor
Пробовал играться с директориями, получал максимум, что он файл найти не может. Что я
делаю не так?
設置篩選字段篇:
---------------------------------------------------------------------------------
很多時候需要篩選某個分類下,某種屬性,某個字段的範圍的,這種如果沒有設置,對於通用全文搜索來說是不準確的,可以使用sphinx的字段設置:
$sphinx->setFilter('catid', array($catid)); //標紅色的部分,是設置的字段變量。藍色的部分,需要在sphinx.conf設置,主數據源:source xx { #sql_attr_uint =id字段 }
--------------------------【技巧篇】:----------------------------------------------------------
屬性:全文匹配結果進行過濾、排序或分組時使用,
sql_attr_uint 這個專門設置整數類,比如篩選id之類的屬性
sql_attr_timestamp 這個設置按時間分組或者篩選
sql_attr_multi 這個應用於多層級的屬性:
## 當數據源數據太大的時候,一個sql語句查詢下來往往很有可能鎖表等操作。
## 那麼我麼就可以使用多次查詢,那麼這個多次查詢就需要有個範圍和步長,sql_query_range和sql_range_step就是做這個使用的。
## 獲取最大和最小的id,然後根據步長來獲取數據。比如下面的例子,如果有4500條數據,這個表建立索引的時候就會進行5次sql查詢。
## 而5次sql查詢每次的間隔時間是使用sql_ranged_rhrottle來進行設置的。單位是毫秒。
# sql_query_range = SELECT MIN(id),MAX(id) FROM documents
# sql_range_step = 1000
# sql_ranged_throttle = 0
## 詞形處理器
## 詞形處理是什麼意思呢?比如在英語中,dogs是dog的複數,所以dog是dogs的詞幹,這兩個實際上是同一個詞。
## 所以英語的詞形處理器會講dogs當做dog來進行處理。
morphology = none
## 詞形處理有的時候會有問題,比如將gps處理成gp,這個設置可以允許根據詞的長度來決定是否要使用詞形處理器。
# min_stemming_len = 1
## 詞形處理後是否還要檢索原詞?
# index_exact_words = 1
## 停止詞,停止詞是不被索引的詞。
# stopwords = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
## 自定義詞形字典
# wordforms = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
--------------------------【安裝篇】:----------------------------------------------------------
在安裝的過程中我們會碰到依賴包的問題
(1)、下載Sphinx
從sphinx官網上找到sphinx的安裝源碼
最新地址:http://sphinxsearch.com/downloads/ 在網盤保存有版本
解壓:tar -zxvf /home/sphinx-2.1.3-release.tar.gz -C 【目錄自己定】
(2)、編譯安裝
進入到sphinx的源碼文件夾裏,運行下列命令就可以安裝sphinx了:
cd /usr/local/sphinx-2.1.3-release【目錄自己定】
./configure --prefix=/usr/local/sphinx --with-mysql=/usr/local/mysql
make && make install【目錄自己定】
Sphinx中重要的三個命令,(Sphinx安裝的bin目錄下)
Indexer 創建索引命令。Searchd 啓動進程命令。Search 命令行搜索命令。(完)
(3)、配置sphinx.conf
自己找備份,此次留空
(4)、命令註解
創建索引命令:indexer
-c 指定配置文件
--all 對所有索引重新編制索引。
--rotate 用於輪換索引,主要是再不停止服務的時候,增加索引。
--buildstops --buildfreqs 要一起使用,
例:indexer myindex --buildstops text.txt 1000 --buildfreqs
會在當前目錄下生成,一個名字叫text.txt,最多包含1000個詞的詞表。
--merge 合併索引 (後面會詳細講)
/usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/sphinx.conf --all
(5)、API調用,直接sphinxapi.php文件放程序根目錄,require_once "sphinxapi.php";
--------------------------【使用篇】:----------------------------------------------------------
1、解決Sphinx 使用報錯:index 'test1': search error: query too complex, not enough stack (thread_stack=-65032K
sql_query_info = SELECT * FROM documents WHERE id=$id
2、在安裝好sphinx 後,啓動 searchd 服務時總是提示如下錯誤:
index 'test': search error: failed to open /var/data/test.sph: sphinx 錯誤解決 index 'test': search error: failed to open /var/data/test.sph:No such file or directory; NOT SERVING
這個錯誤可能是沒有建立好索引導致的,所以 indexer --all --rotate ,重新建一次索引
--------------------------【配置文件詳細說明篇】----------------------------------------------------------
source 來源名稱1{
# 資料來源設定
}
index 索引名稱1{
source=來源名稱1
# 索引設定
}
source 來源名稱2{
# 資料來源設定
}
index 索引名稱2{
source source = 來源名稱2
# 索引設定
}
indexer{
# indexer 配置選項
}
searchd{
# searchd 配置選項
}
sphinx.conf 配置詳解
預設的 conf 位址: /usr/local/etc/sphinx.conf
原始碼關於此工具
#
# Sphinx configuration file sample
#
# WARNING! While this sample file mentions all available options,
# it contains (very) short helper descriptions only. Please refer to
# doc/sphinx.html for details.
#
###############################################################
## data source definition
###############################################################
source s_tit
{
# 資料來源的類型。必要設定項,沒有預設值。
# 已知類型 mysql , pgsql , xmlpipe , xmlpipe2。
type type = mysql
# SQL 主機連接的 IP。必要設定項,沒有預設值。
# 僅適用於SQL數據源(mysql,pgsql)。
sql_host sql_host = localhost
# SQL 主機連接的 port 選擇性設定,預設 mysql(3306),及 pgsql(5432)。
# 僅適用於SQL數據源(mysql,pgsql)。
# 這個設定必須依附在 sql_host 下。
sql_port sql_port = 3306 # optional, default is 3306
# 資料庫用戶名稱,必要設定項,沒有預設值。
sql_user sql_user = root
# 資料庫用戶密碼,必要設定項,沒有預設值。
sql_pass sql_pass = 0000
# 資料庫名稱,必要設定項,沒有預設值。
sql_db sql_db = sphinx_test
# 資料庫 local 端連結介面,選擇性設定,預設為空。
#sql_sock = /tmp/mysql.sock
# MySQL 傳輸壓縮,可將索引建立時的傳輸量,預設為 0(不壓縮)。
#mysql_connect_flags = 32
# 預先查詢。選擇性,可重複,預設是空。僅適用於SQL數據源(mysql,pgsql)。
# 可用來做索引前的初始設定,如編碼設定、緩衝區大小、是否快取暫存
sql_query_pre sql_query_pre = SET NAMES utf8
sql_query_pre sql_query_pre = SET SESSION query_cache_type=OFF
# 主要文件擷取查詢。必要設定項,沒有預設值。僅適用於SQL數據源(mysql,pgsql)。
# 查詢指令允許使用 JOIN 及子查詢,對於資料表不能使用 AS,但資料欄位可以
sql_query sql_query = SELECT `BlogId`,`Title`,`InsertDate` FROM `blog_texts`
# 設定過濾條目,被設定的欄位將不會列入索引的範圍,之後可以作為查詢時的過濾條件,0.9.8版支援下列類型。
sql_attr_timestamp sql_attr_timestamp = InsertDate
#sql_attr_uint = group_id
#sql_attr_bool = is_deleted # will be packed to 1 bit
#sql_attr_str2ordinal = author_name
#sql_attr_float = long_radians
#sql_attr_multi = uint tag from ranged-query; \
# SELECT id, tag FROM tags WHERE id>=$start AND id<=$end; \
# SELECT MIN(id), MAX(id) FROM tags
# 與 sql_query_pre 的功能相同,但用於索引結束後呼叫的指令
#sql_query_post = DROP TABLE my_tmp_table
#sql_query_info =SELECT * FROM `blog_texts` WHERE `BlogId`=$id
}
#------------------------------------------------------------------------
source s_txt
{
type type = mysql
sql_host sql_host = localhost
sql_user sql_user = root
sql_pass sql_pass = 0000
sql_db sql_db = sphinx_test
sql_port sql_port = 3306
sql_query_pre sql_query_pre = SET NAMES utf8
sql_query_pre sql_query_pre = SET SESSION query_cache_type=OFF
sql_query sql_query = SELECT `BlogId`,`Text`,`InsertDate` FROM `blog_texts`
sql_attr_timestamp sql_attr_timestamp = InsertDate
sql_ranged_throttle sql_ranged_throttle = 0
sql_query_info sql_query_info =SELECT * FROM `blog_texts` WHERE `BlogId`=$id
}
#------------------------------------------------------------------------
source s_comment
{
type type = mysql
sql_host sql_host = localhost
sql_user sql_user = root
sql_pass sql_pass = 0000
sql_db sql_db = sphinx_test
sql_port sql_port = 3306
sql_query_pre sql_query_pre = SET NAMES utf8
sql_query_pre sql_query_pre = SET group_concat_max_len=1048576
sql_query_pre sql_query_pre = SET SESSION query_cache_type=OFF
sql_query sql_query = \
SELECT \
`blog_comments`.`BlogId`, \
GROUP_CONCAT(`blog_comments`.`Text`)AS`CommentText`, \
COUNT(`blog_comments`.`BlogId`)AS`CommentNum`, \
`blog_texts`.`InsertDate` \
FROM \
`blog_texts` \
INNER JOIN \
`blog_comments` \
ON `blog_texts`.`BlogId`=`blog_comments`.`BlogId` \
GROUP BY `blog_comments`.`BlogId` \
sql_attr_uint sql_attr_uint = CommentNum
sql_attr_timestamp sql_attr_timestamp = InsertDate
sql_ranged_throttle sql_ranged_throttle = 0
sql_query_info sql_query_info =SELECT * FROM `blog_texts` WHERE `BlogId`=$id
}
###############################################################
### index definition
###############################################################
index s_tit
{
# 索引類型。預設為空(索引為簡單本地索引)。設定值有空字串或 "distributed"
#type = distributed
# 指定索引的來源,必須是上面的來源名稱
source source = s_tit
# 索引記錄存放的目錄
path path = /var/data/s_tit
# 文件屬性值存儲模式,預設值為 extern,可設定的屬性有 'none', 'extern' 及 'inline'.
docinfo docinfo = extern
# 鎖定記憶體緩衝區段。預設為 0(不鎖定)
mlock mlock = 0
# 適用的形態前置處理器名單。預設為空(不應用任何前處理器)。
# 可設定的屬性有 'none', 'stem_en', 'stem_ru', 'stem_enru', 'soundex', and 'metaphone'.
# 這段在中文情況下不能使用,否則會導致無法啟動 searchd 服務。
morphology morphology = none
# 停用詞文件清單(以空白分隔),預設為空。
# 在清單中的 word 將不會加到索引庫裡。
#stopwords = /usr/local/sphinx/data/stopwords.txt
# 詞形字典,預設為空。可以設定 word 之間的關連性。
# wordforms.txt
# walks > walk
# walked > walk
# walking > walk
#
#wordforms = /usr/local/sphinx/data/wordforms.txt
# 保留字例外文件,預設為空。
# exceptions.txt
# MS Windows => ms windows
# Microsoft Windows => ms windows
# C++ => cplusplus
# c++ => cplusplus
# C plus plus => cplusplus
#
#exceptions = /usr/local/sphinx/data/exceptions.txt
# exceptions 與 wordforms 的區別
# *exceptions 是區分大小寫的, wordforms沒有;
# *exceptions 允許檢測序列標記, wordforms 只能處理單一的 word;
# *exceptions 可以使用 charset_table 中沒有的特殊符號,wordforms 完全遵從 charset_table 中的字符;
# *exceptions 在大字典上性能會下降,wordforms 則對百萬級的條目應對自如;
# 最短的關鍵字長度
min_word_len min_word_len = 1
# 編碼格式
charset_type charset_type = utf-8
# 指定 UTF-8 的編碼表
charset_table charset_table = U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,\
U+FF21..U+FF3A->a..z,A..Z->a..z,a..z,U+0149,U+017F,U+0138,U+00DF,\
U+00FF,U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6,\
U+00D8..U+00DE->U+00F8..U+00FE,U+00F8..U+00FE,U+0100->U+0101,\
U+0101,U+0102->U+0103,U+0103,U+0104->U+0105,U+0105,U+0106->U+0107,\
U+0107,U+0108->U+0109,U+0109,U+010A->U+010B,U+010B,U+010C->U+010D,\
U+010D,U+010E->U+010F,U+010F,U+0110->U+0111,U+0111,U+0112->U+0113,\
U+0113,U+0114->U+0115,U+0115,U+0116->U+0117,U+0117,U+0118->U+0119,\
U+0119,U+011A->U+011B,U+011B,U+011C->U+011D,U+011D,U+011E->U+011F,\
U+011F,U+0130->U+0131,U+0131,U+0132->U+0133,U+0133,U+0134->U+0135,\
U+0135,U+0136->U+0137,U+0137,U+0139->U+013A,U+013A,U+013B->U+013C,\
U+013C,U+013D->U+013E,U+013E,U+013F->U+0140,U+0140,U+0141->U+0142,\
U+0142,U+0143->U+0144,U+0144,U+0145->U+0146,U+0146,U+0147->U+0148,\
U+0148,U+014A->U+014B,U+014B,U+014C->U+014D,U+014D,U+014E->U+014F,\
U+014F,U+0150->U+0151,U+0151,U+0152->U+0153,U+0153,U+0154->U+0155,\
U+0155,U+0156->U+0157,U+0157,U+0158->U+0159,U+0159,U+015A->U+015B,\
U+015B,U+015C->U+015D,U+015D,U+015E->U+015F,U+015F,U+0160->U+0161,\
U+0161,U+0162->U+0163,U+0163,U+0164->U+0165,U+0165,U+0166->U+0167,\
U+0167,U+0168->U+0169,U+0169,U+016A->U+016B,U+016B,U+016C->U+016D,\
U+016D,U+016E->U+016F,U+016F,U+0170->U+0171,U+0171,U+0172->U+0173,\
U+0173,U+0174->U+0175,U+0175,U+0176->U+0177,U+0177,U+0178->U+00FF,\
U+00FF,U+0179->U+017A,U+017A,U+017B->U+017C,U+017C,U+017D->U+017E,\
U+017E,U+0410..U+042F->U+0430..U+044F,U+0430..U+044F,U+05D0..U+05EA,\
U+0531..U+0556->U+0561..U+0586,U+0561..U+0587,U+0621..U+063A,U+01B9,\
U+01BF,U+0640..U+064A,U+0660..U+0669,U+066E,U+066F,U+0671..U+06D3,\
U+06F0..U+06FF,U+0904..U+0939,U+0958..U+095F,U+0960..U+0963,\
U+0966..U+096F,U+097B..U+097F,U+0985..U+09B9,U+09CE,U+09DC..U+09E3,\
U+09E6..U+09EF,U+0A05..U+0A39,U+0A59..U+0A5E,U+0A66..U+0A6F,\
U+0A85..U+0AB9,U+0AE0..U+0AE3,U+0AE6..U+0AEF,U+0B05..U+0B39,\
U+0B5C..U+0B61,U+0B66..U+0B6F,U+0B71,U+0B85..U+0BB9,U+0BE6..U+0BF2,\
U+0C05..U+0C39,U+0C66..U+0C6F,U+0C85..U+0CB9,U+0CDE..U+0CE3,\
U+0CE6..U+0CEF,U+0D05..U+0D39,U+0D60,U+0D61,U+0D66..U+0D6F,\
U+0D85..U+0DC6,U+1900..U+1938,U+1946..U+194F,U+A800..U+A805,\
U+A807..U+A822,U+0386->U+03B1,U+03AC->U+03B1,U+0388->U+03B5,\
U+03AD->U+03B5,U+0389->U+03B7,U+03AE->U+03B7,U+038A->U+03B9,\
U+0390->U+03B9,U+03AA->U+03B9,U+03AF->U+03B9,U+03CA->U+03B9,\
U+038C->U+03BF,U+03CC->U+03BF,U+038E->U+03C5,U+03AB->U+03C5,\
U+03B0->U+03C5,U+03CB->U+03C5,U+03CD->U+03C5,U+038F->U+03C9,\
U+03CE->U+03C9,U+03C2->U+03C3,U+0391..U+03A1->U+03B1..U+03C1,\
U+03A3..U+03A9->U+03C3..U+03C9,U+03B1..U+03C1,U+03C3..U+03C9,\
U+0E01..U+0E2E,U+0E30..U+0E3A,U+0E40..U+0E45,U+0E47,U+0E50..U+0E59,\
U+A000..U+A48F,U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\
U+A000..U+A48F,U+A490..U+A4CF
# 指明分詞法讀取詞典文件的位置,當啟用分詞法時,為必填項。
# 在使用 LibMMSeg 作為分詞庫時,需要確保詞典文件uni.lib在指定的目錄下。
# 再使用 LibMMSeg 分詞外掛時,這個設定值纔有效,不然在建立索引時會出錯。
#charset_dictpath = dict
# 忽略的字符列表,預設為空。
#ignore_chars = U+AD
# 索引的最小前綴長度,預設為0(不索引前綴)。
#min_prefix_len = 3
# 索引的最小中綴長度,預設為0(不索引中綴)。
#min_infix_len = 3
# 做前綴索引的字段列表,預設為空(所有字段均為前綴索引模式)。
#prefix_fields = url, domain
# 做中綴索引的字段列表,預設為空(所有字段均為中綴索引模式)。
#infix_fields = url, domain
# 允許前綴/中綴索引上的星號語法(或稱萬用字符)預設為 0(不使用通配符),這是為了與0.9.7版本的兼容性。設定值有 0 和 1。
enable_star enable_star = 1
#分詞,設定值有 0,1,如果要搜索中文,請指定為 1
ngram_len ngram_len = 1
# 分詞字符,中文搜索必要設定。
ngram_chars ngram_chars = U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\
U+A000..U+A48F,U+A490..U+A4CF
# 短語邊界字符列表,預設為空。
#phrase_boundary = ., ?, !, U+2026
# 是否從輸入全文數據中去除 HTML 標記。預設為 0。設定值有 0(禁用),1(啟用)。
html_strip html_strip = 0
# 去除 HTML 標籤時要索引標籤語言的屬性列表,預設為空(不索引標記語言屬性)。
# 指定被保留並索引的 HTML 標記語言屬性,即使其他 HTML 標記被刪除。
html_index_attrs html_index_attrs = img=alt,title; a=title;
# HTML 標籤列表,不僅這些標籤本身會被刪除,標籤之間的文字內容也會被刪除。預設為空(不刪除任何元素的內容)。
html_remove_elements html_remove_elements = style, script
}
index dist_tit
{
# 索引類型。預設為空(索引為簡單本地索引)。設定值有空字串或 "distributed"
type type = distributed
# 分佈式索引(distributed index)中的本地索引聲明,可以設定多個,預設為空。
local local = s_tit
# 分佈式索引(distributed index)中的遠程代理和索引聲明,可以設定多個,預設為空。
agent agent = localhost:3313:remote1
agent agent = localhost:3314:remote2,remote3
# 遠程代理的最大連接時間,單位為毫秒,預設為 1000(1 sec)。
agent_connect_timeout agent_connect_timeout = 1000
# 遠程代理的最大查詢時間,單位為毫秒,預設為 3000(3 sec)。
agent_query_timeout agent_query_timeout = 3000
# 預先開啟全部索引文件還是每次查詢時再開啟索引。預設為0(不預先開啟)。
#preopen = 1
}
#------------------------------------------------------------------------
index s_txt
{
source source = s_txt
path path = /var/data/s_txt
docinfo docinfo = extern
mlock mlock = 0
morphology morphology = none
min_word_len min_word_len = 1
charset_type charset_type = utf-8
charset_table charset_table = U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,\
U+FF21..U+FF3A->a..z,A..Z->a..z,a..z,U+0149,U+017F,U+0138,U+00DF,\
U+00FF,U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6,\
U+00D8..U+00DE->U+00F8..U+00FE,U+00F8..U+00FE,U+0100->U+0101,\
U+0101,U+0102->U+0103,U+0103,U+0104->U+0105,U+0105,U+0106->U+0107,\
U+0107,U+0108->U+0109,U+0109,U+010A->U+010B,U+010B,U+010C->U+010D,\
U+010D,U+010E->U+010F,U+010F,U+0110->U+0111,U+0111,U+0112->U+0113,\
U+0113,U+0114->U+0115,U+0115,U+0116->U+0117,U+0117,U+0118->U+0119,\
U+0119,U+011A->U+011B,U+011B,U+011C->U+011D,U+011D,U+011E->U+011F,\
U+011F,U+0130->U+0131,U+0131,U+0132->U+0133,U+0133,U+0134->U+0135,\
U+0135,U+0136->U+0137,U+0137,U+0139->U+013A,U+013A,U+013B->U+013C,\
U+013C,U+013D->U+013E,U+013E,U+013F->U+0140,U+0140,U+0141->U+0142,\
U+0142,U+0143->U+0144,U+0144,U+0145->U+0146,U+0146,U+0147->U+0148,\
U+0148,U+014A->U+014B,U+014B,U+014C->U+014D,U+014D,U+014E->U+014F,\
U+014F,U+0150->U+0151,U+0151,U+0152->U+0153,U+0153,U+0154->U+0155,\
U+0155,U+0156->U+0157,U+0157,U+0158->U+0159,U+0159,U+015A->U+015B,\
U+015B,U+015C->U+015D,U+015D,U+015E->U+015F,U+015F,U+0160->U+0161,\
U+0161,U+0162->U+0163,U+0163,U+0164->U+0165,U+0165,U+0166->U+0167,\
U+0167,U+0168->U+0169,U+0169,U+016A->U+016B,U+016B,U+016C->U+016D,\
U+016D,U+016E->U+016F,U+016F,U+0170->U+0171,U+0171,U+0172->U+0173,\
U+0173,U+0174->U+0175,U+0175,U+0176->U+0177,U+0177,U+0178->U+00FF,\
U+00FF,U+0179->U+017A,U+017A,U+017B->U+017C,U+017C,U+017D->U+017E,\
U+017E,U+0410..U+042F->U+0430..U+044F,U+0430..U+044F,U+05D0..U+05EA,\
U+0531..U+0556->U+0561..U+0586,U+0561..U+0587,U+0621..U+063A,U+01B9,\
U+01BF,U+0640..U+064A,U+0660..U+0669,U+066E,U+066F,U+0671..U+06D3,\
U+06F0..U+06FF,U+0904..U+0939,U+0958..U+095F,U+0960..U+0963,\
U+0966..U+096F,U+097B..U+097F,U+0985..U+09B9,U+09CE,U+09DC..U+09E3,\
U+09E6..U+09EF,U+0A05..U+0A39,U+0A59..U+0A5E,U+0A66..U+0A6F,\
U+0A85..U+0AB9,U+0AE0..U+0AE3,U+0AE6..U+0AEF,U+0B05..U+0B39,\
U+0B5C..U+0B61,U+0B66..U+0B6F,U+0B71,U+0B85..U+0BB9,U+0BE6..U+0BF2,\
U+0C05..U+0C39,U+0C66..U+0C6F,U+0C85..U+0CB9,U+0CDE..U+0CE3,\
U+0CE6..U+0CEF,U+0D05..U+0D39,U+0D60,U+0D61,U+0D66..U+0D6F,\
U+0D85..U+0DC6,U+1900..U+1938,U+1946..U+194F,U+A800..U+A805,\
U+A807..U+A822,U+0386->U+03B1,U+03AC->U+03B1,U+0388->U+03B5,\
U+03AD->U+03B5,U+0389->U+03B7,U+03AE->U+03B7,U+038A->U+03B9,\
U+0390->U+03B9,U+03AA->U+03B9,U+03AF->U+03B9,U+03CA->U+03B9,\
U+038C->U+03BF,U+03CC->U+03BF,U+038E->U+03C5,U+03AB->U+03C5,\
U+03B0->U+03C5,U+03CB->U+03C5,U+03CD->U+03C5,U+038F->U+03C9,\
U+03CE->U+03C9,U+03C2->U+03C3,U+0391..U+03A1->U+03B1..U+03C1,\
U+03A3..U+03A9->U+03C3..U+03C9,U+03B1..U+03C1,U+03C3..U+03C9,\
U+0E01..U+0E2E,U+0E30..U+0E3A,U+0E40..U+0E45,U+0E47,U+0E50..U+0E59,\
U+A000..U+A48F,U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\
U+A000..U+A48F,U+A490..U+A4CF
ngram_len ngram_len = 1
ngram_chars ngram_chars = U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\
U+A000..U+A48F,U+A490..U+A4CF
html_strip html_strip = 0
html_index_attrs html_index_attrs = img=alt,title; a=title;
html_remove_elements html_remove_elements = style, script
}
index dist_txt
{
type type = distributed
local local = s_txt
agent agent = localhost:3313:remote1
agent agent = localhost:3314:remote2,remote3
agent_connect_timeout agent_connect_timeout = 1000
agent_query_timeout agent_query_timeout = 3000
}
#------------------------------------------------------------------------
index s_comment
{
source source = s_comment
path path = /var/data/s_comment
docinfo docinfo = extern
mlock mlock = 0
morphology morphology = none
min_word_len min_word_len = 1
charset_type charset_type = utf-8
charset_table charset_table = U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,\
U+FF21..U+FF3A->a..z,A..Z->a..z,a..z,U+0149,U+017F,U+0138,U+00DF,\
U+00FF,U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6,\
U+00D8..U+00DE->U+00F8..U+00FE,U+00F8..U+00FE,U+0100->U+0101,\
U+0101,U+0102->U+0103,U+0103,U+0104->U+0105,U+0105,U+0106->U+0107,\
U+0107,U+0108->U+0109,U+0109,U+010A->U+010B,U+010B,U+010C->U+010D,\
U+010D,U+010E->U+010F,U+010F,U+0110->U+0111,U+0111,U+0112->U+0113,\
U+0113,U+0114->U+0115,U+0115,U+0116->U+0117,U+0117,U+0118->U+0119,\
U+0119,U+011A->U+011B,U+011B,U+011C->U+011D,U+011D,U+011E->U+011F,\
U+011F,U+0130->U+0131,U+0131,U+0132->U+0133,U+0133,U+0134->U+0135,\
U+0135,U+0136->U+0137,U+0137,U+0139->U+013A,U+013A,U+013B->U+013C,\
U+013C,U+013D->U+013E,U+013E,U+013F->U+0140,U+0140,U+0141->U+0142,\
U+0142,U+0143->U+0144,U+0144,U+0145->U+0146,U+0146,U+0147->U+0148,\
U+0148,U+014A->U+014B,U+014B,U+014C->U+014D,U+014D,U+014E->U+014F,\
U+014F,U+0150->U+0151,U+0151,U+0152->U+0153,U+0153,U+0154->U+0155,\
U+0155,U+0156->U+0157,U+0157,U+0158->U+0159,U+0159,U+015A->U+015B,\
U+015B,U+015C->U+015D,U+015D,U+015E->U+015F,U+015F,U+0160->U+0161,\
U+0161,U+0162->U+0163,U+0163,U+0164->U+0165,U+0165,U+0166->U+0167,\
U+0167,U+0168->U+0169,U+0169,U+016A->U+016B,U+016B,U+016C->U+016D,\
U+016D,U+016E->U+016F,U+016F,U+0170->U+0171,U+0171,U+0172->U+0173,\
U+0173,U+0174->U+0175,U+0175,U+0176->U+0177,U+0177,U+0178->U+00FF,\
U+00FF,U+0179->U+017A,U+017A,U+017B->U+017C,U+017C,U+017D->U+017E,\
U+017E,U+0410..U+042F->U+0430..U+044F,U+0430..U+044F,U+05D0..U+05EA,\
U+0531..U+0556->U+0561..U+0586,U+0561..U+0587,U+0621..U+063A,U+01B9,\
U+01BF,U+0640..U+064A,U+0660..U+0669,U+066E,U+066F,U+0671..U+06D3,\
U+06F0..U+06FF,U+0904..U+0939,U+0958..U+095F,U+0960..U+0963,\
U+0966..U+096F,U+097B..U+097F,U+0985..U+09B9,U+09CE,U+09DC..U+09E3,\
U+09E6..U+09EF,U+0A05..U+0A39,U+0A59..U+0A5E,U+0A66..U+0A6F,\
U+0A85..U+0AB9,U+0AE0..U+0AE3,U+0AE6..U+0AEF,U+0B05..U+0B39,\
U+0B5C..U+0B61,U+0B66..U+0B6F,U+0B71,U+0B85..U+0BB9,U+0BE6..U+0BF2,\
U+0C05..U+0C39,U+0C66..U+0C6F,U+0C85..U+0CB9,U+0CDE..U+0CE3,\
U+0CE6..U+0CEF,U+0D05..U+0D39,U+0D60,U+0D61,U+0D66..U+0D6F,\
U+0D85..U+0DC6,U+1900..U+1938,U+1946..U+194F,U+A800..U+A805,\
U+A807..U+A822,U+0386->U+03B1,U+03AC->U+03B1,U+0388->U+03B5,\
U+03AD->U+03B5,U+0389->U+03B7,U+03AE->U+03B7,U+038A->U+03B9,\
U+0390->U+03B9,U+03AA->U+03B9,U+03AF->U+03B9,U+03CA->U+03B9,\
U+038C->U+03BF,U+03CC->U+03BF,U+038E->U+03C5,U+03AB->U+03C5,\
U+03B0->U+03C5,U+03CB->U+03C5,U+03CD->U+03C5,U+038F->U+03C9,\
U+03CE->U+03C9,U+03C2->U+03C3,U+0391..U+03A1->U+03B1..U+03C1,\
U+03A3..U+03A9->U+03C3..U+03C9,U+03B1..U+03C1,U+03C3..U+03C9,\
U+0E01..U+0E2E,U+0E30..U+0E3A,U+0E40..U+0E45,U+0E47,U+0E50..U+0E59,\
U+A000..U+A48F,U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\
U+A000..U+A48F,U+A490..U+A4CF
ngram_len ngram_len = 1
ngram_chars ngram_chars = U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\
U+A000..U+A48F,U+A490..U+A4CF
html_strip html_strip = 0
html_index_attrs html_index_attrs = img=alt,title; a=title;
html_remove_elements html_remove_elements = style, script
}
index dist_comment
{
type type = distributed
local local = s_comment
agent agent = localhost:3313:remote1
agent agent = localhost:3314:remote2,remote3
agent_connect_timeout agent_connect_timeout = 1000
agent_query_timeout agent_query_timeout = 3000
}
###############################################################
### indexer settings
###############################################################
indexer
{
# 索引過程中記憶體的使用限制,預設為 32M。
mem_limit mem_limit = 64M
# 每秒最大 I/O 操作次數,用於限制 I/O 操作。預設為0(無限制)。
#max_iops = 40
# 最大單次允許的 I/O 操作大小,以 bytes 為單位,用於I/O節流。預設為0(不限制)。
#max_iosize = 1048576
}
###############################################################
### searchd settings
###############################################################
searchd
{
# 監聽來源 IP,預設為0.0.0.0(即允許所有 IP 連結)。
#address = 127.0.0.1
# searchd 的 TCP port。預設為 3312。
port port = 3312
# log 的紀錄文件位址,全部 searchd 運行時事件會被記錄在這個日誌文件中。
log log = /var/log/sphinx/searchd.log
# 查詢日誌文件名,預設為空(不記錄查詢日誌)。
# 全部搜索查詢會被記錄在此文件中。
query_log query_log = /var/log/sphinx/query.log
# 最大的查詢請求時間,單位是秒。預設是5秒。
# searchd 將強制關閉在此時間內未能成功發出查詢的客戶端連接。
read_timeout read_timeout = 5
# 並行執行的搜索的數目。預設為0(無限制)。
max_children max_children = 30
# searchd 進程 ID 文件名。必選項。
pid_file pid_file = /var/log/sphinx/searchd.pid
# 守護進程在記憶體中為每個索引所保持並返回給客戶端的匹配數目的最大值。預設為1000
max_matches max_matches = 1000
# 防止 searchd 輪換在需要預取大量數據的索引時停止響應。預設為1(啟用無縫(seamless)輪換)
seamless_rotate seamless_rotate = 1
# 是否在啟動時強制重新打開所有索引文件。預設為0(不重新打開)。
preopen_indexes preopen_indexes = 0
# 索引輪換成功之後,是否刪除以.old為擴展名的索引拷貝。預設為1(刪除這些索引拷貝)。
unlink_old unlink_old = 1
}
# --eof--
##
數據源src1
source src1
{
## 說明數據源的類型。數據源的類型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python
## 有人會奇怪,python是一種語言怎麼可以成爲數據源呢?
## python作爲一種語言,可以操作任意其他的數據來源來獲取數據,更多數據請看:(http://www.coreseek.cn/products-install/python/)
type = mysql
## 下面是sql數據庫特有的端口,用戶名,密碼,數據庫名等。
sql_host = localhost
sql_user = test
sql_pass =
sql_db = test
sql_port = 3306
## 如果是使用unix sock連接可以使用這個。
# sql_sock = /tmp/mysql.sock
## indexer和mysql之間的交互,需要考慮到效率和安全性。
## 比如考慮到效率,他們兩者之間的交互需要使用壓縮協議;考慮到安全,他們兩者之間的傳輸需要使用ssl
## 那麼這個參數就代表這個意思,0/32/2048/32768 無/使用壓縮協議/握手後切換到ssl/Mysql 4.1版本身份認證。
# mysql_connect_flags = 32
## 當mysql_connect_flags設置爲2048(ssl)的時候,下面幾個就代表ssl連接所需要使用的幾個參數。
# mysql_ssl_cert = /etc/ssl/client-cert.pem
# mysql_ssl_key = /etc/ssl/client-key.pem
# mysql_ssl_ca = /etc/ssl/cacert.pem
## mssql特有,是否使用windows登陸
# mssql_winauth = 1
## mssql特有,是使用unicode還是單字節數據。
# mssql_unicode = 1 # request Unicode data from server
## odbc的dsn串
# odbc_dsn = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
## sql某一列的緩衝大小,一般是針對字符串來說的。
## 爲什麼要有這麼一種緩衝呢?
## 有的字符串,雖然長度很長,但是實際上並沒有使用那麼長的字符,所以在Sphinx並不會收錄所有的字符,而是給每個屬性一個緩存作爲長度限制。
## 默認情況下非字符類型的屬性是1KB,字符類型的屬性是1MB。
## 而如果想要配置這個buffer的話,就可以在這裏進行配置了。
# sql_column_buffers = content=12M, comments=1M
## indexer的sql執行前需要執行的操作。
# sql_query_pre = SET NAMES utf8
# sql_query_pre = SET SESSION query_cache_type=OFF
## indexer的sql執行語句
sql_query = \
SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
FROM documents
## 有的時候有多個表,我們想要查詢的字段在其他表中。這個時候就需要對sql_query進行join操作。
## 而這個join操作可能非常慢,導致建立索引的時候特別慢,那麼這個時候,就可以考慮在sphinx端進行join操作了。
## sql_joined_field是增加一個字段,這個字段是從其他表查詢中查詢出來的。
## 這裏封號後面的查詢語句是有要求的,如果是query,則返回id和查詢字段,如果是payload-query,則返回id,查詢字段和權重。
## 並且這裏的後一個查詢需要按照id進行升序排列。
# sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
# sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC
## 外部文件字段,意思就是一個表中,有一個字段存的是外部文件地址,但是實際的字段內容在文件中。比如這個字段叫做content_file_path。
## 當indexer建立索引的時候,查到這個字段,就讀取這個文件地址,然後加載,並進行分詞和索引建立等操作。
# sql_file_field = content_file_path
## 當數據源數據太大的時候,一個sql語句查詢下來往往很有可能鎖表等操作。
## 那麼我麼就可以使用多次查詢,那麼這個多次查詢就需要有個範圍和步長,sql_query_range和sql_range_step就是做這個使用的。
## 獲取最大和最小的id,然後根據步長來獲取數據。比如下面的例子,如果有4500條數據,這個表建立索引的時候就會進行5次sql查詢。
## 而5次sql查詢每次的間隔時間是使用sql_ranged_rhrottle來進行設置的。單位是毫秒。
# sql_query_range = SELECT MIN(id),MAX(id) FROM documents
# sql_range_step = 1000
# sql_ranged_throttle = 0
## 下面都是些不同屬性的數據了
## 先要了解屬性的概念:屬性是存在索引中的,它不進行全文索引,但是可以用於過濾和排序。
## uint無符號整型屬性
sql_attr_uint = group_id
## bool屬性
# sql_attr_bool = is_deleted
## 長整型屬性
# sql_attr_bigint = my_bigint_id
## 時間戳屬性,經常被用於做排序
sql_attr_timestamp = date_added
## 字符串排序屬性。一般我們按照字符串排序的話,我們會將這個字符串存下來進入到索引中,然後在查詢的時候比較索引中得字符大小進行排序。
## 但是這個時候索引就會很大,於是我們就想到了一個方法,我們在建立索引的時候,先將字符串值從數據庫中取出,暫存,排序。
## 然後給排序後的數組分配一個序號,然後在建立索引的時候,就將這個序號存入到索引中去。這樣在查詢的時候也就能完成字符串排序的操作。
## 這,就是這個字段的意義。
# sql_attr_str2ordinal = author_name
## 浮點數屬性,經常在查詢地理經緯度的時候會用到。
# sql_attr_float = lat_radians
# sql_attr_float = long_radians
## 多值屬性(MVA)
## 試想一下,有一個文章系統,每篇文章都有多個標籤,這個文章就叫做多值屬性。
## 我要對某個標籤進行查詢過濾,那麼在建立查詢的時候就應該把這個標籤的值放入到索引中。
## 這個字段,sql_attr_multi就是用來做這個事情的。
# sql_attr_multi = uint tag from query; SELECT docid, tagid FROM tags
# sql_attr_multi = uint tag from ranged-query; \
# SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
# SELECT MIN(docid), MAX(docid) FROM tags
## 字符串屬性。
# sql_attr_string = stitle
## 文檔詞彙數記錄屬性。比如下面就是在索引建立的時候增加一個詞彙數的字段
# sql_attr_str2wordcount = stitle
## 字符串字段,可全文搜索,可返回原始文本信息。
# sql_field_string = author
## 文檔詞彙數記錄字段,可全文搜索,可返回原始信息
# sql_field_str2wordcount = title
## 取後查詢,在sql_query執行後立即操作。
## 它和sql_query_post_index的區別就是執行時間不同
## sql_query_post是在sql_query執行後執行,而sql_query_post_index是在索引建立完成後才執行。
## 所以如果要記錄最後索引執行時間,那麼應該在sql_query_post_index中執行。
# sql_query_post =
## 參考sql_query_post的說明。
# sql_query_post_index = REPLACE INTO counters ( id, val ) \
# VALUES ( 'max_indexed_id', $maxid )
## 命令行獲取信息查詢。
## 什麼意思呢?
## 我們進行索引一般只會返回主鍵id,而不會返回表中的所有字段。
## 但是在調試的時候,我們一般需要返回表中的字段,那這個時候,就需要使用sql_query_info。
## 同時這個字段只在控制檯有效,在api中是無效的。
sql_query_info = SELECT * FROM documents WHERE id=$id
## 比如有兩個索引,一個索引比較舊,一個索引比較新,那麼舊索引中就會有數據是舊的。
## 當我要對兩個索引進行搜索的時候,哪些數據要按照新的索引來進行查詢呢。
## 這個時候就使用到了這個字段了。
## 這裏的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)給的非常清晰了。
# sql_query_killlist = SELECT id FROM documents WHERE edited>=@last_reindex
## 下面幾個壓縮解壓的配置都是爲了一個目的:讓索引重建的時候不要影響數據庫的性能表現。
## SQL數據源解壓字段設置
# unpack_zlib = zlib_column
## MySQL數據源解壓字段設置
# unpack_mysqlcompress = compressed_column
# unpack_mysqlcompress = compressed_column_2
## MySQL數據源解壓緩衝區設置
# unpack_mysqlcompress_maxsize = 16M
## xmlpipe的數據源就是一個xml文檔
# type = xmlpipe
## 讀取數據源的命令
# xmlpipe_command = cat /home/yejianfeng/instance/coreseek/var/test.xml
## 字段
# xmlpipe_field = subject
# xmlpipe_field = content
## 屬性
# xmlpipe_attr_timestamp = published
# xmlpipe_attr_uint = author_id
## UTF-8修復設置
## 只適用xmlpipe2數據源,數據源中有可能有非utf-8的字符,這個時候解析就有可能出現問題
## 如果設置了這個字段,非utf-8序列就會全部被替換爲空格。
# xmlpipe_fixup_utf8 = 1
}
## sphinx的source是有繼承這麼一種屬性的,意思就是除了父source之外,這個source還有這個特性
source src1throttled : src1
{
sql_ranged_throttle = 100
}
## 索引test1
index test1
{
## 索引類型,包括有plain,distributed和rt。分別是普通索引/分佈式索引/增量索引。默認是plain。
# type = plain
## 索引數據源
source = src1
## 索引文件存放路徑
path = /home/yejianfeng/instance/coreseek/var/data/test1
## 文檔信息的存儲模式,包括有none,extern,inline。默認是extern。
## docinfo指的就是數據的所有屬性(field)構成的一個集合。
## 首先文檔id是存儲在一個文件中的(spa)
## 當使用inline的時候,文檔的屬性和文件的id都是存放在spa中的,所以進行查詢過濾的時候,不需要進行額外操作。
## 當使用extern的時候,文檔的屬性是存放在另外一個文件(spd)中的,但是當啓動searchd的時候,會把這個文件加載到內存中。
## extern就意味着每次做查詢過濾的時候,除了查找文檔id之外,還需要去內存中根據屬性進行過濾。
## 但是即使這樣,extern由於文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern
docinfo = extern
## 緩衝內存鎖定。
## searchd會講spa和spi預讀取到內存中。但是如果這部分內存數據長時間沒有訪問,則它會被交換到磁盤上。
## 設置了mlock就不會出現這個問題,這部分數據會一直存放在內存中的。
mlock = 0
## 詞形處理器
## 詞形處理是什麼意思呢?比如在英語中,dogs是dog的複數,所以dog是dogs的詞幹,這兩個實際上是同一個詞。
## 所以英語的詞形處理器會講dogs當做dog來進行處理。
morphology = none
## 詞形處理有的時候會有問題,比如將gps處理成gp,這個設置可以允許根據詞的長度來決定是否要使用詞形處理器。
# min_stemming_len = 1
## 詞形處理後是否還要檢索原詞?
# index_exact_words = 1
## 停止詞,停止詞是不被索引的詞。
# stopwords = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
## 自定義詞形字典
# wordforms = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
## 詞彙特殊處理。
## 有的一些特殊詞我們希望把它當成另外一個詞來處理。比如,c++ => cplusplus來處理。
# exceptions = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt
## 最小索引詞長度,小於這個長度的詞不會被索引。
min_word_len = 1
## 字符集編碼類型,可以爲sbcs,utf-8。對於Coreseek,還可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
charset_type = sbcs
## 字符表和大小寫轉換規則。對於Coreseek,這個字段無效。
# 'sbcs' default value is
# charset_table = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
#
# 'utf-8' default value is
# charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
## 忽略字符表。在忽略字符表中的前後詞會被連起來當做一個單獨關鍵詞處理。
# ignore_chars = U+00AD
## 是否啓用通配符,默認爲0,不啓用
# enable_star = 1
## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star開啓的時候纔有效果。
## 最小前綴索引長度
## 爲什麼要有這個配置項呢?
## 首先這個是當啓用通配符配置啓用的前提下說的,前綴索引使得一個關鍵詞產生了多個索引項,導致索引文件體積和搜索時間增加巨大。
## 那麼我們就有必要限制下前綴索引的前綴長度,比如example,當前綴索引長度設置爲5的時候,它只會分解爲exampl,example了。
# min_prefix_len = 0
## 最小索引中綴長度。理解同上。
# min_infix_len = 0
## 前綴索引和中綴索引字段列表。並不是所有的字段都需要進行前綴和中綴索引。
# prefix_fields = filename
# infix_fields = url, domain
## 詞彙展開
## 是否儘可能展開關鍵字的精確格式或者型號形式
# expand_keywords = 1
## N-Gram索引的分詞技術
## N-Gram是指不按照詞典,而是按照字長來分詞,這個主要是針對非英文體系的一些語言來做的(中文、韓文、日文)
## 對coreseek來說,這兩個配置項可以忽略。
# ngram_len = 1
# ngram_chars = U+3000..U+2FA1F
## 詞組邊界符列表和步長
## 哪些字符被看做分隔不同詞組的邊界。
# phrase_boundary = ., ?, !, U+2026 # horizontal ellipsis
# phrase_boundary_step = 100
## 混合字符列表
# blend_chars = +, &, U+23
# blend_mode = trim_tail, skip_pure
## html標記清理,是否從輸出全文數據中去除HTML標記。
html_strip = 0
## HTML標記屬性索引設置。
# html_index_attrs = img=alt,title; a=title;
## 需要清理的html元素
# html_remove_elements = style, script
## searchd是預先打開全部索引還是每次查詢再打開索引。
# preopen = 1
## 字典文件是保持在磁盤上還是將他預先緩衝在內存中。
# ondisk_dict = 1
## 由於在索引建立的時候,需要建立臨時文件和和副本,還有舊的索引
## 這個時候磁盤使用量會暴增,於是有個方法是臨時文件重複利用
## 這個配置會極大減少建立索引時候的磁盤壓力,代價是索引建立速度變慢。
# inplace_enable = 1
# inplace_hit_gap = 0 # preallocated hitlist gap size
# inplace_docinfo_gap = 0 # preallocated docinfo gap size
# inplace_reloc_factor = 0.1 # relocation buffer size within arena
# inplace_write_factor = 0.1 # write buffer size within arena
## 在經過過短的位置後增加位置值
# overshort_step = 1
## 在經過 停用詞 處後增加位置值
# stopword_step = 1
## 位置忽略詞彙列表
# hitless_words = all
# hitless_words = hitless.txt
## 是否檢測並索引句子和段落邊界
# index_sp = 1
## 字段內需要索引的HTML/XML區域的標籤列表
# index_zones = title, h*, th
}
index test1stemmed : test1
{
path = /home/yejianfeng/instance/coreseek/var/data/test1stemmed
morphology = stem_en
}
index dist1
{
type = distributed
local = test1
local = test1stemmed
## 分佈式索引(distributed index)中的遠程代理和索引聲明
agent = localhost:9313:remote1
agent = localhost:9314:remote2,remote3
# agent = /var/run/searchd.sock:remote4
## 分佈式索引( distributed index)中聲明遠程黑洞代理
# agent_blackhole = testbox:9312:testindex1,testindex2
## 遠程代理的連接超時時間
agent_connect_timeout = 1000
## 遠程查詢超時時間
agent_query_timeout = 3000
}
index rt
{
type = rt
path = /home/yejianfeng/instance/coreseek/var/data/rt
## RT索引內存限制
# rt_mem_limit = 512M
## 全文字段定義
rt_field = title
rt_field = content
## 無符號整數屬性定義
rt_attr_uint = gid
## 各種屬性定義
# rt_attr_bigint = guid
# rt_attr_float = gpa
# rt_attr_timestamp = ts_added
# rt_attr_string = author
}
indexer
{
## 建立索引的時候,索引內存限制
mem_limit = 32M
## 每秒最大I/O操作次數,用於限制I/O操作
# max_iops = 40
## 最大允許的I/O操作大小,以字節爲單位,用於I/O節流
# max_iosize = 1048576
## 對於XMLLpipe2數據源允許的最大的字段大小,以字節爲單位
# max_xmlpipe2_field = 4M
## 寫緩衝區的大小,單位是字節
# write_buffer = 1M
## 文件字段可用的最大緩衝區大小,字節爲單位
# max_file_field_buffer = 32M
}
## 搜索服務配置
searchd
{
# listen = 127.0.0.1
# listen = 192.168.0.1:9312
# listen = 9312
# listen = /var/run/searchd.sock
## 監聽端口
listen = 9312
listen = 9306:mysql41
## 監聽日誌
log = /home/yejianfeng/instance/coreseek/var/log/searchd.log
## 查詢日誌
query_log = /home/yejianfeng/instance/coreseek/var/log/query.log
## 客戶端讀超時時間
read_timeout = 5
## 客戶端持久連接超時時間,即客戶端讀一次以後,持久連接,然後再讀一次。中間這個持久連接的時間。
client_timeout = 300
## 並行執行搜索的數目
max_children = 30
## 進程id文件
pid_file = /home/yejianfeng/instance/coreseek/var/log/searchd.pid
## 守護進程在內存中爲每個索引所保持並返回給客戶端的匹配數目的最大值
max_matches = 1000
## 無縫輪轉。防止 searchd 輪換在需要預取大量數據的索引時停止響應
## 當進行索引輪換的時候,可能需要消耗大量的時間在輪換索引上。
## 但是啓動了無縫輪轉,就以消耗內存爲代價減少輪轉的時間
seamless_rotate = 1
## 索引預開啓,是否強制重新打開所有索引文件
preopen_indexes = 1
## 索引輪換成功之後,是否刪除以.old爲擴展名的索引拷貝
unlink_old = 1
## 屬性刷新週期
## 就是使用UpdateAttributes()更新的文檔屬性每隔多少時間寫回到磁盤中。
# attr_flush_period = 900
## 索引字典存儲方式
# ondisk_dict_default = 1
## 用於多值屬性MVA更新的存儲空間的內存共享池大小
mva_updates_pool = 1M
## 網絡通訊時允許的最大的包的大小
max_packet_size = 8M
## 崩潰日誌文件
# crash_log_path = /home/yejianfeng/instance/coreseek/var/log/crash
## 每次查詢允許設置的過濾器的最大個數
max_filters = 256
## 單個過濾器允許的值的最大個數
max_filter_values = 4096
## TCP監聽待處理隊列長度
# listen_backlog = 5
## 每個關鍵字的讀緩衝區的大小
# read_buffer = 256K
## 無匹配時讀操作的大小
# read_unhinted = 32K
## 每次批量查詢的查詢數限制
max_batch_queries = 32
## 每個查詢的公共子樹文檔緩存大小
# subtree_docs_cache = 4M
## 每個查詢的公共子樹命中緩存大小
# subtree_hits_cache = 8M
## 多處理模式(MPM)。 可選項;可用值爲none、fork、prefork,以及threads。 默認在Unix類系統爲form,Windows系統爲threads。
workers = threads # for RT to work
## 併發查詢線程數
# dist_threads = 4
## 二進制日誌路徑
# binlog_path = # disable logging
# binlog_path = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there
## 二進制日誌刷新
# binlog_flush = 2
## 二進制日誌大小限制
# binlog_max_log_size = 256M
## 線程堆棧
# thread_stack = 128K
## 關鍵字展開限制
# expansion_limit = 1000
## RT索引刷新週期
# rt_flush_period = 900
## 查詢日誌格式
## 可選項,可用值爲plain、sphinxql,默認爲plain。
# query_log_format = sphinxql
## MySQL版本設置
# mysql_version_string = 5.0.37
## 插件目錄
# plugin_dir = /usr/local/sphinx/lib
## 服務端默認字符集
# collation_server = utf8_general_ci
## 服務端libc字符集
# collation_libc_locale = ru_RU.UTF-8
## 線程服務看守
# watchdog = 1
## 兼容模式
# compat_sphinxql_magics = 1
}