[pg]postgresql的中文分詞以及全文索引

參考

摘錄

前言
PostgreSQL 被稱爲是“最高級的開源數據庫”，它的數據類型非常豐富，用它來解決一些比較偏門的需求非常適合。

前些天將 POI 點關鍵詞查詢的功能遷到了 PgSQL，總算對前文 空間索引 - 各數據庫空間索引使用報告 有了一個交代。

由於 PgSQL 國內的資料較少，遷移過程踩了不少坑，這裏總結記錄一下，幫助後來的同學能順利使用 PgSQL。而且目前在灰度測試剛布了一臺機器，後續可能還要添加機器，整理一下流程總是好的。

文章經常被人爬，而且還不註明原地址，我在這裏的更新和糾錯沒法同步，這裏註明一下原文地址：http://www.cnblogs.com/zhenbianshu/p/7795247.html

開始
安裝
首先是安裝 PgSQL，這裏我使用的是 PgSQL 9.6，PgSQL 10 也剛發佈了，有興趣的可以嘗下鮮。

PgSQL 的安裝可以說非常複雜了，除了要安裝 Server 和 Client 外，還需要安裝 devel 包。爲了實現空間索引功能，我們還要安裝最重要的 PostGIS 插件，此插件需要很多依賴，自己手動安裝非常複雜而且很可能出錯。

推薦自動化方式安裝，Yum 一定要配合 epel 這樣的 Yum 源，保障能將依賴一網打盡。當然最好的還是使用 docker 來運行，找個鏡像就行了。

插件
由於 PgSQL 的很多功能都由插件實現，所以還要安裝一些常用的插件，如:

postgis_topology（管理面、邊、點等拓撲對象）
pgrouting（路徑規劃）
postgis_sfcgal（實現3D相關算法）
fuzzystrmatch（字符串相似度計算）
address_standardizer/address_standardizer_data_us（地址標準化）
pg_trgm（分詞索引）
這些插件在安裝目錄 /path/extensions 下編譯完畢後，在數據庫中使用前要先使用 create extension xxx 啓用。

啓動
切換到非 root 用戶。（PgSQL 在安裝完畢後會創建一個名爲 postgres 的超級用戶，我們可以使用這個超級用戶來操作 PgSQL，後期建議重新創建一個普通用戶用來管理數據）；
切換到 /installPath/bin/ 目錄下，PgSQL 在此目錄下提供了很多命令，如 createdb、createuser、dropdb、pg_dump 等；
使用 createdb 命令初始化一個文件夾 dir_db (此目錄不能已存在)存放數據庫物理數據，使用 -E UTF8 參數指定數據庫字符集爲 utf-8；
使用 pg_ctl -D dir_db 指定數據庫啓動後臺服務；
使用 psql -d db 在命令行登陸 PgSQL;
配置
安裝完畢後還要配置一些比較基本的參數才能正常使用。

Host權限
PgSQL需要在 pg_hba.conf 文件中配置數據庫 Host 權限，才能被其他機器訪問。

# TYPE  DATABASE        USER            ADDRESS                 METHOD
local   all             all                                     trust
host    all             all             127.0.0.1/32            md5
host    all             all             172.16.0.1/16            md5
文件中註釋部分對這幾個字段介紹得比較詳細， 我們很可能需要添加 host(IP) 訪問項， ADDRESS 是普通的網段表示法，METHOD 推薦使用 md5，表示使用 md5 加密傳輸密碼。

服務器配置
服務器配置在 postgresql.conf中，修改配置後需要 使用 pg_ctl restart -D dir_db 命令重啓數據庫；

此外，我們也可以在登陸數據庫後修改配置項：使用 SELECT * FROM pg_settings WHERE name = 'config'; 查詢當前配置項，再使用 UPDATE 語句更新配置。但有些配置如內存分配策略是隻在當前 session 生效的，全局生效需要在配置文件中修改，再重啓服務器。

我們可以修改配置並用客戶端驗證 SQL 語句的優化，使用 \timing on 開啓查詢計時，使用 EXPLAIN ANALYSE 語句 分析查詢語句效率。 下面介紹兩個已實踐過的配置參數：

shared_buffers：用於指定共享內存緩衝區所佔用的內存量。它應該足夠大來存儲常使用的查詢結果，以減少物理I/O。但它也不能太大，以避免系統 內存swap 的發生， 一般設置爲系統內存的 20%。
work_mem：一個連接的工作內存，在查詢結果數據量較大時，此值如果較小的話，會導致大量系統 I/O，導致查詢速度急劇下降，如果你的 explain 語句內 buffer 部分 read數值過大，則表示工作內存不足，需要調整加此參數。但此值也不能太大，需要保證 work_mem * max_connections + shared_buffers + 系統內存 < RAM，不然同樣可能會導致系統 內存swap。
這樣，PgSQL 就能作爲一個正常的關係型數據使用了。

分詞
全文索引的實現要靠 PgSQL 的 gin 索引。分詞功能 PgSQL 內置了英文、西班牙文等，但中文分詞需要藉助開源插件 zhparser；

SCWS
要使用 zhparser，我們首先要安裝 SCWS 分詞庫，SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫（即：簡易中文分詞系統），其 GitHub 項目地址爲 hightman-scws，我們下載之後可以直接安裝。

安裝完後，就可以在命令行中使用 scws 命令進行測試分詞了， 其參數主要有：

-c utf8 指定字符集
-d dict 指定字典 可以是 xdb 或 txt 格式
-M 複合分詞的級別， 1~15，按位異或的 1|2|4|8 依次表示 短詞|二元|主要字|全部字，默認不復合分詞，這個參數可以幫助調整到最想要的分詞效果。
zhpaser
下載 zhparser 源碼 git clone https:github.com/amutu/zhparser.git；
安裝前需要先配置環境變量：export PATH=$PATH:/path/to/pgsql；
make && make install編譯 zhparser；
登陸 PgSQL 使用 CREATE EXTENSION zhparser; 啓用插件；
添加分詞配置

CREATE TEXT SEARCH CONFIGURATION parser_name (PARSER = zhparser); // 添加配置
ALTER TEXT SEARCH CONFIGURATION parser_name ADD MAPPING FOR n,v,a,i,e,l,j WITH simple; // 設置分詞規則 （n 名詞 v 動詞等，詳情閱讀下面的文檔）
給某一列的分詞結果添加 gin 索引 create index idx_name on table using gin(to_tsvector('parser_name', field));

在命令行中使用上一節中介紹的 scws 命令測試分詞配置，如我認爲複合等級爲 7 時分詞結果最好，則我在 postgresql.conf添加配置

zhparser.multi_short = true #短詞複合: 1
zhparser.multi_duality = true  #散字二元複合: 2
zhparser.multi_zmain = true  #重要單字複合: 4
zhparser.multi_zall = false  #全部單字複合: 8
SQL
查詢中我們可以使用最簡單的 SELECT * FROM table WHERE to_tsvector('parser_name', field) @@ 'word' 來查詢 field 字段分詞中帶有 word 一詞的數據；

使用 to_tsquery() 方法將句子解析成各個詞的組合向量，如 國家大劇院 的返回結果爲 '國家' & '大劇院' & '大劇' & '劇院' ，當然我們也可以使用 & | 符號拼接自己需要的向量；在查詢 長句 時，可以使用 SELECT * FROM table WHERE to_tsvector('parser_name', field) @@ to_tsquery('parser_name','words')；

有時候我們想像 MySQL 的 SQL_CALC_FOUND_ROWS 語句一樣同步返回結果條數，則可以使用 SELECT COUNT(*) OVER() AS score FROM table WHERE ...，PgSQL 會在每一行數據添加 score 字段存儲查詢到的總結果條數；

到這裏，普通的全文檢索需求已經實現了。

優化
我們接着對分詞效果和效率進行優化：

存儲分詞結果
我們可以使用一個字段來存儲分詞向量，並在此字段上創建索引來更優地使用分詞索引：

ALTER TABLE table ADD COLUMN tsv_column tsvector;           // 添加一個分詞字段
UPDATE table SET tsv_column = to_tsvector('parser_name', coalesce(field,''));   // 將字段的分詞向量更新到新字段中
CREATE INDEX idx_gin_zhcn ON table USING GIN(tsv_column);   // 在新字段上創建索引
CREATE TRIGGER trigger_name BEFORE INSERT OR UPDATE  ON table FOR EACH ROW EXECUTE PROCEDURE
tsvector_update_trigger(tsv_column, 'parser_name', field); // 創建一個更新分詞觸發器
這樣，再進行查詢時就可以直接使用 SELECT * FROM table WHERE tsv_column @@ 'keyword' 了。

這裏需要注意，這時候在往表內插入數據的時候，可能會報錯，提示指定 parser_name 的 schema， 這時候可以使用 \dF 命令查看所有 text search configuration 的參數：

               List of text search configurations
   Schema   |    Name    |              Description
------------+------------+---------------------------------------
 pg_catalog | english    | configuration for english language
 public     | myparser   |
注意 schema 參數，在創建 trigger 時需要指定 schema， 如上面，就需要使用 public.myparser。

添加自定義詞典
我們可以在網上下載 xdb 格式的詞庫來替代默認詞典，詞庫放在 share/tsearch_data/ 文件夾下才能被 PgSQL 讀取到，默認使用的詞庫是 dict.utf8.xdb。要使用自定義詞庫，可以將詞庫放在詞庫文件夾後，在 postgresql.conf 配置 zhparser.extra_dict="mydict.xdb" 參數；

當我們只有 txt 的詞庫，想把這個詞庫作爲默認詞庫該怎麼辦呢？使用 scws 帶的scwe-gen-dict 工具或網上找的腳本生成 xdb 後放入詞庫文件夾後，在 PgSQL 中分詞一直報錯，讀取詞庫文件失敗。我經過多次實驗，總結出了一套製作一個詞典文件的方法：

準備詞庫源文件 mydict.txt：詞庫文件的內容每一行的格式爲詞 TF IDF 詞性，詞是必須的，而 TF 詞頻(Term Frequency)、IDF 反文檔頻率(Inverse Document Frequency) 和 詞性 都是可選的，除非確定自己的詞典資料是對的且符合 scws 的配置，不然最好還是留空，讓 scws 自已確定；
在 postgresql.conf 中設置 zhparser.extra_dicts = "mydict.txt" 同時設置 zhparser.dict_in_memory = true；
命令行進入 PgSQL，執行一條分詞語句 select to_tsquery('parser', '隨便一個詞') ，分詞會極慢，請耐心(請保證此時只有一個分詞語句在執行)；
分詞成功後，在/tmp/目錄下找到生成的 scws-xxxx.xdb 替換掉 share/tsearch_data/dict.utf8.xdb；
刪除剛加入的 extra_dicts dict_in_memory 配置，重啓服務器。
擴展
由於查詢的是 POI 的名稱，一般較短，且很多詞並無語義，又考慮到用戶的輸入習慣，一般會輸入 POI 名稱的前幾個字符，而且 scws 的分詞準確率也不能達到100%，於是我添加了名稱的前綴查詢來提高查詢的準確率，即使用 B樹索引 實現 LIKE '關鍵詞%' 的查詢。這裏需

這裏要注意的是，創建索引時要根據字段類型配置 操作符類，不然索引可能會不生效，如在 字段類型爲 varchar 的字段上創建索引需要使用語句CREATE INDEX idx_name ON table(COLUMN varchar_pattern_ops)，這裏的 varcharpatternops 就是操作符類，操作符類的介紹和選擇可以查看文檔：11.9. 操作符類和操作符族。

自此，一個良好的全文檢索系統就完成了。

總結
簡單的數據遷移並不是終點，後續要做的還有很多，如整個系統的數據同步、查詢效率優化、查詢功能優化（添加拼音搜索、模糊搜索）等。特別是查詢效率，不知道是不是我配置有問題，完全達不到那種 E級毫秒 的速度，1kw 的數據效率在進行大結果返回時就大幅下降（200ms），只好老老實實地提前進行了分表，目前百萬級查詢速度在 20ms 以內，優化還有一段路要走。

不過這次倒是對 技術的“生態”有了個更深的體會，這方面 PgSQL 確實和 MySQL 差遠了，使用 MySQL 時再奇葩的問題都能在網上快速找到答案，而 PgSQL 就尷尬了，入門級的問題搜索 stackoverflow 來來回回就那麼幾個對不上的回答。雖然也有阿里的“德哥”一樣的大神在辛苦佈道，但用戶的數量纔是根本。不過，隨着 PgSQL 越來越完善，使用它的人一定會越來越多的，我這篇文章也算是爲 PgSQL 加溫了吧，哈哈~希望能幫到後來的使用者。

關於本文有什麼問題可以在下面留言交流，如果您覺得本文對您有幫助，可以點擊下面的 推薦 支持一下我，博客一直在更新，歡迎 關注 。

參考：

PostgreSQL系統配置優化

[PG]使用 zhparser 進行中文分詞全文檢索

SCWS 中文分詞

Fast Search Using PostgreSQL Trigram Indexes

使用阿里雲PostgreSQL zhparser時不可不知的幾個參數

德哥的PostgreSQL私房菜 - 史上最屌PG資料合集
[pg]postgresql的中文分詞以及全文索引

參考

摘錄

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

janus以及coturncentos8的配置_排錯填坑完結篇

讀書筆記-第六課

讀書筆記-第四課

[pg]postgresql的中文分詞以及全文索引

獲取免費的ssl證書並部署到nginx上面

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結