1、創建索引
- 需要指定中文分詞器的索引
查詢請求路徑http://localhost:9200/accounts/
{
"mappings": {
"person": {
"properties": {
"user": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
},
"title": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
},
"desc": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}
}
}
}
}
新建一個名稱爲accounts
的 Index,裏面有一個名稱爲person
的 Type。person
有三個字段。
- user
- title
- desc
這三個字段都是中文,而且類型都是文本(text),所以需要指定中文分詞器,不能使用默認的英文分詞器。
Elastic 的分詞器稱爲 analyzer。我們對每個字段指定分詞器。
"user": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_max_word" }
上面代碼中,analyzer
是字段文本的分詞器,search_analyzer
是搜索詞的分詞器。ik_max_word
分詞器是插件ik
提供的,可以對文本進行最大數量的分詞。
ik分詞器提供兩種分詞類型
- ik_max_word: 會將文本做最細粒度的拆分,比如會將“中華人民共和國國歌”拆分爲“中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌”,會窮盡各種可能的組合;
- ik_smart: 會做最粗粒度的拆分,比如會將“中華人民共和國國歌”拆分爲“中華人民共和國,國歌”。
- 創建普通索引,使用默認分詞器
2、刪除索引
通過概覽頁面進行刪除
3、索引的數據操作
3.1 添加記錄
向指定的 /Index/Type 發送 PUT 請求,就可以在 Index 裏面新增一條記錄。比如,向/accounts/person
發送請求,就可以新增一條人員記錄。
{
"user": "張三",
"title": "工程師",
"desc": "數據庫管理"
}
服務器返回的 JSON 對象,會給出 Index、Type、Id、Version 等信息。
{
"_index": "accounts",
"_type": "person",
"_id": "1",
"_version": 1,
"result": "created",
"_shards": {
"total": 2,
"successful": 1,
"failed": 0
},
"_seq_no": 0,
"_primary_term": 1
}
說明: 請求路徑是
/accounts/person/1
,最後的1
是該條記錄的 Id。它不一定是數字,任意字符串(比如abc
)都可以。
新增記錄的時候,也可以不指定 Id,這時要改成 POST 請求。
{
"user": "李四",
"title": "工程師",
"desc": "系統管理"
}'
上面代碼中,向/accounts/person
發出一個 POST 請求,添加一個記錄。這時,服務器返回的 JSON 對象裏面,_id
字段就是一個隨機字符串。
注意,如果沒有先創建 Index(這個例子是accounts
),直接執行上面的命令,Elastic 也不會報錯,而是直接生成指定的 Index。所以,打字的時候要小心,不要寫錯 Index 的名稱。
3.2 查看記錄
向/Index/Type/Id
發出 GET 請求,就可以查看這條記錄。例如請求查看之前插入的/accounts/person/1
這條記錄
返回的數據中,found
字段返回true表示查詢成功,_source
字段返回原始記錄。
如果 Id 不正確,就查不到數據,found
字段就是false
。
3.3 刪除記錄
刪除記錄就是發出 DELETE 請求。
返回的數據中,result
字段返回deleted表示刪除成功。
3.4 更新記錄
更新記錄就是使用 PUT 請求,重新發送一次數據。
(提示:上一步操作將id爲1的person數據刪除了,需要執行3.1中的操作再添加回來)
{
"user": "張三",
"title": "工程師",
"desc": "數據庫管理"
}
將張三的描述信息desc進行修改,改成如下數據
{
"user": "張三",
"title": "工程師",
"desc": "軟件研發"
}
可以看到,記錄的 Id 沒變,但是版本(version)從1
變成2
,操作類型(result)從created
變成updated
。
4、數據記錄查詢
4.1 返回所有記錄
使用 GET 方法,直接請求/Index/Type/_search
,就會返回所有記錄。
上面代碼中,返回結果的 took
字段表示該操作的耗時(單位爲毫秒),timed_out
字段表示是否超時,hits
字段表示命中的記錄,裏面子字段的含義如下。
total
:返回記錄數,本例是3條。max_score
:最高的匹配程度,本例是1.0
。hits
:返回的記錄組成的數組。
返回的記錄中,每條記錄都有一個_score
字段,表示匹配的程序,默認是按照這個字段降序排列。
4.2 全文搜素
Elastic 的查詢非常特別,使用自己的查詢語法,要求 GET 請求帶有數據體。(使用Head客戶端,用get帶請求體沒有作用,需要使用post)
{
"query" : { "match" : { "desc" : "軟件" }}
}
下面的查詢中使用 Match 查詢,指定的匹配條件是desc
字段裏面包含"軟件"這個詞。返回結果如下。
Elastic 默認一次返回10條結果,可以通過size
字段改變這個設置。
{
"query" : { "match" : { "desc" : "管理" }},
"size": 1
}
上面代碼指定,每次只返回一條結果。
還可以通過from
字段,指定位移。
{
"query" : { "match" : { "desc" : "管理" }},
"from": 1,
"size": 1
}
上面代碼指定,從位置1開始(默認是從位置0開始),只返回一條結果。如下圖所示位移爲1,所以返回的結果是張三不是王五
4.3 邏輯運算
如果有多個搜索關鍵字, Elastic 認爲它們是or
關係。
{
"query" : { "match" : { "desc" : "軟件 系統" }}
}
上面代碼搜索的是軟件 or 系統
。如下圖所示:
如果要執行多個關鍵詞的and
搜索,必須使用布爾查詢。
{
"query": {
"bool": {
"must": [
{
"match": {
"desc": "管理"
}
},
{
"match": {
"desc": "系統"
}
}
]
}
}
}
參考文章l來源:阮一峯-全文搜索引擎 Elasticsearch 入門教程