原创 ES 離線索引構建

本文講解 ES 離線索引構建涉及一些核心功能實現原理,適用於10億數據量,2-3小時內完成 ES 索引構建。 談到索引構建,其實更熟悉的一個場景是: 一個線上服務,接收請求做了某些邏輯處理,然後想要將數據保存到 ES 用於後續的查詢,這個

原创 ES + FAISS 分佈式向量檢索引擎的實現原理

本文主要介紹如何基於 ES + FAISS 實現向量檢索,並且以 FAISS IndexIVFFlat 索引爲例介紹實現方案。對於 IndexIVFFlat 而言,需要先對數據進行聚類,得到若干個聚簇( nlist=1024)。然後在查詢時

原创 業界使用 ES 的一些工程實踐

歡迎讀者在評論區共享讀過的 ES(ElasticSearch)工程實踐的文章 性能優化 美團外賣搜索基於Elasticsearch的優化實踐 美團外賣LBS場景下,採用 LongObjectHashMap hash 查詢方式優化了倒排鏈的

原创 lucene posting list 編碼之Frame of Reference

本文是:https://www.elastic.co/cn/blog/frame-of-reference-and-roaring-bitmaps 文章的翻譯及理解。 lucene 在存儲 doc 時,會爲每個 doc 分配一個 doc_i

原创 ES集羣查詢穩定性優化

如果將 Elasticsearch(ES)作爲線上C端服務的查詢引擎,那麼 search query 的響應時間則至關重要。因爲畢竟面向C端用戶,如果一個搜索請求 1 秒內還未返回,那麼用戶將不可接受。 因此,C端服務對ES的性能穩定性做了

原创 elasticsearch 字段常用配置參數解釋

主要解釋下面3個常用的參數: index 參數 store 與 _source 參數 doc_value 參數 1、index 參數 默認爲true。當設置爲true時,代表需要對該字段進行檢索,也即倒排查詢,根據 query 條件 查

原创 電商搜索的多路召回

當選用 elasticsearch 作爲電商的商品搜索存儲系統時,用戶輸入一個 query 時,這個 query 是如何從es 中查詢出商品數據的? 首先,用戶輸入的 query 詞會通過query 分析服務產出若干個從不同維度表達用戶

原创 二叉搜索樹中兩個節點之和

題目描述 給定一個二叉搜索樹的 根節點 root 和一個整數 k , 請判斷該二叉搜索樹中是否存在兩個節點它們的值之和等於 k 。假設二叉搜索樹中節點的值均唯一。參考leetcode 分析 中序遍歷二叉樹,將節點的 value 保存到 A

原创 5why 分析法

什麼是 5why 分法法? 所謂5why分析法,又稱“5問法”,也就是對一個問題點連續以5個“爲什麼”來自問,以追究其根本原因。 雖爲5個爲什麼,但使用時不限定只做“5次爲什麼的探討”,主要是必須找到根本原因爲止,有時可能只要3次,有時也許

原创 索引構建

背景 面向C端用戶的在線核心搜索系統底層採用ES作爲核心“存儲/檢索”引擎,搜索作爲用戶購買決策的核心鏈路的一部分,對系統的可靠性要求tp9999,對查詢性能要求極高(召回+排序 300ms以內)。如何搭建一套這樣系統穩定、性能可靠的搜索系

原创 如何接入下游服務接口?

S:當我們接到一個產品需求時,需要調用下游服務方提供的接口,比如調用下游 LBS 服務召回附近的商家,這時候需要拉着下游 RD 做技術方案評審,確定下游提供的接口是否滿足 PRD 需求。 C:在 PRD 評審時,往往只是 PM 拉着各方 R

原创 query 推薦系統

一、定義 在電商搜索中,query 推薦是指爲用戶推薦符合其意圖的 query,以方便用戶輸入或者吸引用戶點擊。 1.1 query 推薦的目標 引導用戶使用搜索,提升搜索的滲透率。提升搜索滲透率,其實是讓用戶有更多的渠道能夠進入到:“商

原创 搜索業務各指標

一、搜索渠道 當公司有多個業務時,其他成熟的業務可爲新的業務導流,因此新業務的搜索流量可來自其他業務,稱爲搜索渠道。 用戶使用搜索多不多?搜索完後點擊多不多?搜索完後下單多不多?圍繞這三個問題從query維度(QV)和用戶維度(UV)可以制

原创 搜索框 sug 基本技術方案

一、候選 sug 詞數據來源: 商品側:query 召回的商品數、query 召回的訂單數 query側:QV、QV_CTR、QV_CXR 從這兩個角度選出的 query 作爲 sug 詞候選集 二、數據處理(分析) 規則挖掘、FP算法挖掘

原创 高併發系統設計思考筆記

一、性能度量的指標 如何衡量系統接口的響應時間? 平均值 平均值是把統計時間段內所有請求的響應時間數據相加,再除以總請求數。平均值的敏感度差 最大值 統計時間段內所有請求響應時間最長的值,最大值過於敏感 分位值 把統計時間段內請