Sphinx 配置

source:數據源,數據是從什麼地方來的。 
index:索引,當有數據源之後,從數據源處構建索引。索引實際上就是相當於一個字典檢索。有了整本字典內容以後,纔會有字典檢索。
searchd:提供搜索查詢服務。它一般是以deamon的形式運行在後臺的。
indexer:構建索引的服務。當要重新構建索引的時候,就是調用indexer這個命令。
attr:屬性,屬性是存在索引中的,它不進行全文索引,但是可以用於過濾和排序。

配置文件

## 數據源src1
source src1
{
    ## 說明數據源的類型。數據源的類型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python
    type            = mysql
    
    ## 下面是sql數據庫特有的端口,用戶名,密碼,數據庫名等。
    sql_host        = localhost
    sql_user        = test
    sql_pass       =
    sql_db          = test
    sql_port        = 3306

    ## 如果是使用unix sock連接可以使用這個。
    # sql_sock      = /tmp/mysql.sock

    ## indexer和mysql之間的交互,需要考慮到效率和安全性。
    ## 比如考慮到效率,他們兩者之間的交互需要使用壓縮協議;考慮到安全,他們兩者之間的傳輸需要使用ssl
    ## 那麼這個參數就代表這個意思,0/32/2048/32768  無/使用壓縮協議/握手後切換到ssl/Mysql 4.1版本身份認證。
    # mysql_connect_flags   = 32

    ## 當mysql_connect_flags設置爲2048(ssl)的時候,下面幾個就代表ssl連接所需要使用的幾個參數。
    # mysql_ssl_cert        = /etc/ssl/client-cert.pem
    # mysql_ssl_key     = /etc/ssl/client-key.pem
    # mysql_ssl_ca      = /etc/ssl/cacert.pem

    ## odbc的dsn串
    # odbc_dsn      = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
    
    ## sql某一列的緩衝大小,一般是針對字符串來說的。
    ## 爲什麼要有這麼一種緩衝呢?
    ## 有的字符串,雖然長度很長,但是實際上並沒有使用那麼長的字符,所以在Sphinx並不會收錄所有的字符,而是給每個屬性一個緩存作爲長度限制。
    ## 默認情況下非字符類型的屬性是1KB,字符類型的屬性是1MB。
    ## 而如果想要配置這個buffer的話,就可以在這裏進行配置了。
    # sql_column_buffers    = content=12M, comments=1M

    ## indexer的sql執行前需要執行的操作。
    # sql_query_pre     = SET NAMES utf8
    # sql_query_pre     = SET SESSION query_cache_type=OFF

    ## indexer的sql執行語句
    sql_query       = \
        SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
        FROM documents

    ## 有的時候有多個表,我們想要查詢的字段在其他表中。這個時候就需要對sql_query進行join操作。
    ## 而這個join操作可能非常慢,導致建立索引的時候特別慢,那麼這個時候,就可以考慮在sphinx端進行join操作了。
    ## sql_joined_field是增加一個字段,這個字段是從其他表查詢中查詢出來的。
    ## 這裏封號後面的查詢語句是有要求的,如果是query,則返回id和查詢字段,如果是payload-query,則返回id,查詢字段和權重。
    ## 並且這裏的後一個查詢需要按照id進行升序排列。
    # sql_joined_field  = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
    # sql_joined_field  = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC

    ## 外部文件字段,意思就是一個表中,有一個字段存的是外部文件地址,但是實際的字段內容在文件中。比如這個字段叫做content_file_path。
    ## 當indexer建立索引的時候,查到這個字段,就讀取這個文件地址,然後加載,並進行分詞和索引建立等操作。
    # sql_file_field        = content_file_path

    ## 當數據源數據太大的時候,一個sql語句查詢下來往往很有可能鎖表等操作。
    ## 那麼我麼就可以使用多次查詢,那麼這個多次查詢就需要有個範圍和步長,sql_query_range和sql_range_step就是做這個使用的。
    ## 獲取最大和最小的id,然後根據步長來獲取數據。比如下面的例子,如果有4500條數據,這個表建立索引的時候就會進行5次sql查詢。 
    ## 而5次sql查詢每次的間隔時間是使用sql_ranged_rhrottle來進行設置的。單位是毫秒。
    # sql_query_range       = SELECT MIN(id),MAX(id) FROM documents
    # sql_range_step        = 1000
    # sql_ranged_throttle   = 0

    ## 下面都是些不同屬性的數據了
    ## 先要了解屬性的概念:屬性是存在索引中的,它不進行全文索引,但是可以用於過濾(filter)和排序(order)。

    ## uint無符號整型屬性
    sql_attr_uint       = group_id
    
    ## bool屬性
    # sql_attr_bool     = is_deleted
    
    ## 長整型屬性
    # sql_attr_bigint       = my_bigint_id
    
    ## 時間戳屬性,經常被用於做排序
    sql_attr_timestamp  = date_added

    ## 字符串排序屬性。一般我們按照字符串排序的話,我們會將這個字符串存下來進入到索引中,然後在查詢的時候比較索引中得字符大小進行排序。
    ## 但是這個時候索引就會很大,於是我們就想到了一個方法,我們在建立索引的時候,先將字符串值從數據庫中取出,暫存,排序。
    ## 然後給排序後的數組分配一個序號,然後在建立索引的時候,就將這個序號存入到索引中去。這樣在查詢的時候也就能完成字符串排序的操作。
    ## 這,就是這個字段的意義。
    # sql_attr_str2ordinal  = author_name

    ## 浮點數屬性,經常在查詢地理經緯度的時候會用到。
    # sql_attr_float        = lat_radians
    # sql_attr_float        = long_radians

    ## 多值屬性(MVA)
    ## 試想一下,有一個文章系統,每篇文章都有多個標籤,這個文章就叫做多值屬性。
    ## 我要對某個標籤進行查詢過濾,那麼在建立查詢的時候就應該把這個標籤的值放入到索引中。
    ## 這個字段,sql_attr_multi就是用來做這個事情的。
    # sql_attr_multi        = uint tag from query; SELECT docid, tagid FROM tags
    # sql_attr_multi        = uint tag from ranged-query; \
    #   SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
    #   SELECT MIN(docid), MAX(docid) FROM tags

    ## 字符串屬性。
    # sql_attr_string       = stitle

    ## 文檔詞彙數記錄屬性。比如下面就是在索引建立的時候增加一個詞彙數的字段
    # sql_attr_str2wordcount    = stitle

    ## 字符串字段,可全文搜索,可返回原始文本信息。
    # sql_field_string  = author

    ## 文檔詞彙數記錄字段,可全文搜索,可返回原始信息
    # sql_field_str2wordcount   = title

    ## 取後查詢,在sql_query執行後立即操作。
    ## 它和sql_query_post_index的區別就是執行時間不同
    ## sql_query_post是在sql_query執行後執行,而sql_query_post_index是在索引建立完成後才執行。
    ## 所以如果要記錄最後索引執行時間,那麼應該在sql_query_post_index中執行。
    ##***** 在做增量索引的時候用sql_query_post標記最後一條數據,因爲sql_query_post_index會在query查完後,有個創建索引的過程,這就會造成一定的延時。
    # sql_query_post        =

    ## 參考sql_query_post的說明。
    # sql_query_post_index  = REPLACE INTO counters ( id, val ) \
    #   VALUES ( 'max_indexed_id', $maxid )

    ## 比如有兩個索引,一個索引比較舊,一個索引比較新,那麼舊索引中就會有數據是舊的。
    ## 當我要對兩個索引進行搜索的時候,哪些數據要按照新的索引來進行查詢呢。
    ## 這個時候就使用到了這個字段了。
    ## 這裏的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)給的非常清晰了。(經測試沒發現有什麼不同,不知道是bug還是使用方式不對)
    # sql_query_killlist    = SELECT id FROM documents WHERE edited>=@last_reindex

    ## 下面幾個壓縮解壓的配置都是爲了一個目的:讓索引重建的時候不要影響數據庫的性能表現。
    ## SQL數據源解壓字段設置
    # unpack_zlib       = zlib_column
    ## MySQL數據源解壓字段設置
    # unpack_mysqlcompress  = compressed_column
    # unpack_mysqlcompress  = compressed_column_2
    ## MySQL數據源解壓緩衝區設置
    # unpack_mysqlcompress_maxsize  = 16M
}

## sphinx的source是有繼承這麼一種屬性的,意思就是除了父source之外,這個source還有這個特性,類似於java的繼承與多態。
source src1throttled : src1
{
    sql_ranged_throttle = 100
}

## 索引test1
index test1
{
    ## 索引類型,包括有plain,distributed和rt。分別是普通索引/分佈式索引/實時索引。默認是plain。
    # type          = plain

    ## 索引數據源
    source          = src1
    ## 索引文件存放路徑
    path            = /usr/local/sphinx/var/data/test1

    ## 文檔信息的存儲模式,包括有none,extern,inline。默認是extern。
    ## docinfo指的就是數據的所有屬性(field)構成的一個集合。
    ## 首先文檔id是存儲在一個文件中的(spa)
    ## 當使用inline的時候,文檔的屬性和文件的id都是存放在spa中的,所以進行查詢過濾的時候,不需要進行額外操作。
    ## 當使用extern的時候,文檔的屬性是存放在另外一個文件(spd)中的,但是當啓動searchd的時候,會把這個文件加載到內存中。
    ## extern就意味着每次做查詢過濾的時候,除了查找文檔id之外,還需要去內存中根據屬性進行過濾。
    ## 但是即使這樣,extern由於文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern
    docinfo         = extern

    ## 緩衝內存鎖定。
    ## searchd會講spa和spi預讀取到內存中。但是如果這部分內存數據長時間沒有訪問,則它會被交換到磁盤上。
    ## 設置了mlock就不會出現這個問題,這部分數據會一直存放在內存中的。
    mlock           = 0

    ## 詞形處理器
    ## 詞形處理是什麼意思呢?比如在英語中,dogs是dog的複數,所以dog是dogs的詞幹,這兩個實際上是同一個詞。
    ## 所以英語的詞形處理器會講dogs當做dog來進行處理。
    morphology      = none

    ## 詞形處理有的時候會有問題,比如將gps處理成gp,這個設置可以允許根據詞的長度來決定是否要使用詞形處理器。
    # min_stemming_len  = 1

    ## 詞形處理後是否還要檢索原詞?
    # index_exact_words = 1

    ## 停止詞,停止詞是不被索引的詞。
    # stopwords     = /usr/local/sphinx/var/data/stopwords.txt

    ## 自定義詞形字典
    # wordforms     = /usr/local/sphinx/var/data/wordforms.txt

    ## 詞彙特殊處理。
    ## 有的一些特殊詞我們希望把它當成另外一個詞來處理。比如,c++ => cplusplus來處理。
    # exceptions        = /usr/local/sphinx/var/data/exceptions.txt

    ## 最小索引詞長度,小於這個長度的詞不會被索引。
    min_word_len        = 1

    ## 字符集編碼類型,可以爲sbcs,utf-8。對於Coreseek,還可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
    charset_type        = sbcs

    ## 字符表和大小寫轉換規則。對於Coreseek,這個字段無效。
    # 'sbcs' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
    #
    # 'utf-8' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F

    ## 忽略字符表。在忽略字符表中的前後詞會被連起來當做一個單獨關鍵詞處理。
    # ignore_chars      = U+00AD

    ## 是否啓用通配符,默認爲0,不啓用
    # enable_star       = 1

    ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star開啓的時候纔有效果。
    ## 最小前綴索引長度
    ## 爲什麼要有這個配置項呢?
    ## 首先這個是當啓用通配符配置啓用的前提下說的,前綴索引使得一個關鍵詞產生了多個索引項,導致索引文件體積和搜索時間增加巨大。
    ## 那麼我們就有必要限制下前綴索引的前綴長度,比如example,當前綴索引長度設置爲5的時候,它只會分解爲exampl,example了。
    # min_prefix_len        = 0
    ## 最小索引中綴長度。理解同上。
    # min_infix_len     = 0

    ## 前綴索引和中綴索引字段列表。並不是所有的字段都需要進行前綴和中綴索引。
    # prefix_fields     = filename
    # infix_fields      = url, domain

    ## 詞彙展開
    ## 是否儘可能展開關鍵字的精確格式或者型號形式
    # expand_keywords       = 1

    ## N-Gram索引的分詞技術
    ## N-Gram是指不按照詞典,而是按照字長來分詞,這個主要是針對非英文體系的一些語言來做的(中文、韓文、日文)
    ## 對coreseek來說,這兩個配置項可以忽略。
    # ngram_len     = 1
    # ngram_chars       = U+3000..U+2FA1F

    ## 詞組邊界符列表和步長
    ## 哪些字符被看做分隔不同詞組的邊界。
    # phrase_boundary       = ., ?, !, U+2026 # horizontal ellipsis
    # phrase_boundary_step  = 100

    ## 混合字符列表
    # blend_chars       = +, &, U+23
    # blend_mode        = trim_tail, skip_pure

    ## html標記清理,是否從輸出全文數據中去除HTML標記。
    html_strip      = 0

    ## HTML標記屬性索引設置。
    # html_index_attrs  = img=alt,title; a=title;

    ## 需要清理的html元素
    # html_remove_elements  = style, script

    ## searchd是預先打開全部索引還是每次查詢再打開索引。
    # preopen           = 1

    ## 字典文件是保持在磁盤上還是將他預先緩衝在內存中。
    # ondisk_dict       = 1

    ## 由於在索引建立的時候,需要建立臨時文件和和副本,還有舊的索引
    ## 這個時候磁盤使用量會暴增,於是有個方法是臨時文件重複利用
    ## 這個配置會極大減少建立索引時候的磁盤壓力,代價是索引建立速度變慢。
    # inplace_enable        = 1
    # inplace_hit_gap       = 0 # preallocated hitlist gap size
    # inplace_docinfo_gap   = 0 # preallocated docinfo gap size
    # inplace_reloc_factor  = 0.1 # relocation buffer size within arena
    # inplace_write_factor  = 0.1 # write buffer size within arena

    ## 在經過過短的位置後增加位置值
    # overshort_step        = 1

    ## 在經過 停用詞 處後增加位置值
    # stopword_step     = 1

    ## 位置忽略詞彙列表
    # hitless_words     = all
    # hitless_words     = hitless.txt

    ## 是否檢測並索引句子和段落邊界
    # index_sp          = 1

    ## 字段內需要索引的HTML/XML區域的標籤列表
    # index_zones       = title, h*, th
}

index test1stemmed : test1
{
    path            = /usr/local/sphinx/var/data/test1
    morphology      = stem_en
}

index dist1
{
    type            = distributed

    local           = test1
    local           = test1stemmed

    ## 分佈式索引(distributed index)中的遠程代理和索引聲明
    agent           = localhost:9313:remote1
    agent           = localhost:9314:remote2,remote3
    # agent         = /var/run/searchd.sock:remote4

    ## 分佈式索引( distributed index)中聲明遠程黑洞代理
    # agent_blackhole       = testbox:9312:testindex1,testindex2

    ## 遠程代理的連接超時時間
    agent_connect_timeout   = 1000

    ## 遠程查詢超時時間
    agent_query_timeout = 3000
}

index rt
{
    type            = rt

    path            = /usr/local/sphinx/var/data/rt

    ## RT索引內存限制
    # rt_mem_limit      = 512M

    ## 全文字段定義
    rt_field        = title
    rt_field        = content

    ## 無符號整數屬性定義
    rt_attr_uint        = gid

    ## 各種屬性定義
    # rt_attr_bigint        = guid
    # rt_attr_float     = gpa
    # rt_attr_timestamp = ts_added
    # rt_attr_string        = author
}

indexer
{
    ## 建立索引的時候,索引內存限制
    mem_limit       = 32M

    ## 每秒最大I/O操作次數,用於限制I/O操作
    # max_iops      = 40

    ## 最大允許的I/O操作大小,以字節爲單位,用於I/O節流
    # max_iosize        = 1048576

    ## 對於XMLLpipe2數據源允許的最大的字段大小,以字節爲單位
    # max_xmlpipe2_field    = 4M

    ## 寫緩衝區的大小,單位是字節
    # write_buffer      = 1M

    ## 文件字段可用的最大緩衝區大小,字節爲單位
    # max_file_field_buffer = 32M
}

## 搜索服務配置
searchd
{
    # listen            = 127.0.0.1
    # listen            = 192.168.0.1:9312
    # listen            = 9312
    # listen            = /var/run/searchd.sock

    ## 監聽端口
    listen          = 9312
    listen          = 9306:mysql41

    ## 監聽日誌
    log         = /usr/local/sphinx/var/log/searchd.log

    ## 查詢日誌
    query_log       = /usr/local/sphinx/var/log/query.log

    ## 客戶端讀超時時間 
    read_timeout        = 5

    ## 客戶端持久連接超時時間,即客戶端讀一次以後,持久連接,然後再讀一次。中間這個持久連接的時間。
    client_timeout      = 300

    ## 並行執行搜索的數目
    max_children        = 30

    ## 進程id文件
    pid_file        = /usr/local/sphinx/var/log/searchd.pid

    ## 守護進程在內存中爲每個索引所保持並返回給客戶端的匹配數目的最大值
    max_matches     = 1000

    ## 無縫輪轉。防止 searchd 輪換在需要預取大量數據的索引時停止響應
    ## 當進行索引輪換的時候,可能需要消耗大量的時間在輪換索引上。
    ## 但是啓動了無縫輪轉,就以消耗內存爲代價減少輪轉的時間
    seamless_rotate     = 1

    ## 索引預開啓,是否強制重新打開所有索引文件
    preopen_indexes     = 1

    ## 索引輪換成功之後,是否刪除以.old爲擴展名的索引拷貝
    unlink_old      = 1

    ## 屬性刷新週期
    ## 就是使用UpdateAttributes()更新的文檔屬性每隔多少時間寫回到磁盤中。
    # attr_flush_period = 900

    ## 索引字典存儲方式
    # ondisk_dict_default   = 1

    ## 用於多值屬性MVA更新的存儲空間的內存共享池大小
    mva_updates_pool    = 1M

    ## 網絡通訊時允許的最大的包的大小
    max_packet_size     = 8M

    ## 崩潰日誌文件
    # crash_log_path        = /usr/local/sphinx/var/data/log/crash

    ## 每次查詢允許設置的過濾器的最大個數
    max_filters     = 256

    ## 單個過濾器允許的值的最大個數
    max_filter_values   = 4096

    ## TCP監聽待處理隊列長度
    # listen_backlog        = 5

    ## 每個關鍵字的讀緩衝區的大小
    # read_buffer       = 256K

    ## 無匹配時讀操作的大小
    # read_unhinted     = 32K

    ## 每次批量查詢的查詢數限制
    max_batch_queries   = 32

    ## 每個查詢的公共子樹文檔緩存大小
    # subtree_docs_cache    = 4M

    ## 每個查詢的公共子樹命中緩存大小
    # subtree_hits_cache    = 8M

    ## 多處理模式(MPM)。 可選項;可用值爲none、fork、prefork,以及threads。 默認在Unix類系統爲form,Windows系統爲threads。
    workers         = threads # for RT to work

    ## 併發查詢線程數
    # dist_threads      = 4

    ## 二進制日誌路徑
    # binlog_path       = # disable logging
    # binlog_path       = /usr/local/sphinx/var/data # binlog.001 etc will be created there

    ## 二進制日誌刷新
    # binlog_flush      = 2

    ## 二進制日誌大小限制
    # binlog_max_log_size   = 256M

    ## 線程堆棧
    # thread_stack          = 128K

    ## 關鍵字展開限制
    # expansion_limit       = 1000

    ## RT索引刷新週期 
    # rt_flush_period       = 900

    ## 查詢日誌格式
    ## 可選項,可用值爲plain、sphinxql,默認爲plain。 
    # query_log_format      = sphinxql

    ## MySQL版本設置
    # mysql_version_string  = 5.0.37

    ## 插件目錄
    # plugin_dir            = /usr/local/sphinx/lib

    ## 服務端默認字符集
    # collation_server      = utf8_general_ci
    ## 服務端libc字符集
    # collation_libc_locale = ru_RU.UTF-8

    ## 線程服務看守
    # watchdog              = 1
    ## 兼容模式
    # compat_sphinxql_magics    = 1
}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章