Elasticsearch 評分排序

Elasticsearch 評分排序


  • 背景
  • 通過腳本改變評分

背景

近期有一個需求,需要對優惠券可用商品列表加個排序,只針對面值類的券不包括折扣券。

需求是這樣的,假設有一張面值券 50 塊錢,可用商品列表 A 100、B 40、C 10,當用戶查詢當前券可用商品列表的時候優先將卡券可以直接抵扣且不需要用戶在額外支付的商品排在前面。

C 10
B 40
A 100

其實排序有很多側重,比如:

1.根據用戶利益最大化原則,排序列表應該是 B、C、A
2.根據用戶購買習慣,有可能是 A、B、C
3.根據運營策略、第三方利益等有可能是C、B、A

這裏暫且先不擴展如何對商品列表進行智能排序,如果需要完整的個性化商品推薦,涉及很多東西,後面有經驗在拿來分享。

我們就這個簡單的 case,一開始最直接的想法就是加個排序列,建索引的時候將排序值計算好直接寫入。後來分析了下原來索引(index) 結構不是這種笛卡爾積的排列,所以在短時間內很難立馬上線,需要新建 index 結構。

後來通過討論用影響評分的方法來解決,可以節省時間快速上線。

通過腳本改變評分

ES query DSL 支持很多種類型的查詢,結果的排序如果沒有特殊聲明 sort field 則是根據es打分(score)來排序的,score 分值越高排序越靠前。

ES score 計算比較複雜,涉及到 TF(詞頻)/IDF(逆向文檔頻率)罕見詞匹配文檔長度權重 boost 向量空間模型 等,不過 ES 提供了幾種封裝好的評分插件供使用。

function_score 查詢來讓我們根據業務場景改變文檔評分方法,根據業務場景我們需要完全控制 score 生成的邏輯,所以我們選擇 script_score 方式。

script_score
如果需求超出以上範圍時,用自定義腳本可以完全控制評分計算,實現所需邏輯。
(參考:https://www.elastic.co/guide/cn/elasticsearch/guide/current/function-score-query.html

腳本默認是 groovy,當然也可以根據需要使用其他腳本語言,我們來看下實現。

script.inline: on
script.enfine.groovy.inline.aggs: on
script.indexed: on
script.file: on

首先在 es.yml 配置中打開腳本支持相關選項。

{
    "query": {
        "function_score": {
            "query": {
                "bool": {
                    "should": [
                        {
                            "match": {
                                "productName": "英語"
                            }
                        }
                    ]
                }
            },
            "score_mode": "first",
            "script_score": {
                "lang": "groovy",
                "params": {
                    "couponPrice": 100
                },
                "script": "def deduct = couponPrice - doc['unitCost'].value.toFloat(); if (deduct > 0) {return 10000 + deduct;}else if(deduct==0 || (deduct<1 && deduct>0)){return 20000;}else{return  doc['unitCost'].value.toFloat()-couponPrice;}"
            },
            "boost_mode": "replace"
        }
    },
    "from": 0,
    "size": 100
}

查詢條件可以任意,關鍵是 __script_score 對象,script 是需要 ES__ 腳本引擎執行的腳本代碼。

一個比較重要的選項 boost_modeboost_mode 是控制整個 document 的評分方式,這裏我們選擇替代(replace)默認計算好的評分。

這裏面的排序有一個小技巧,如何將負數排序在前面,正數排序在後面,還有抵扣後是0的處理。

def deduct = couponPrice - doc['unitCost'].value.toFloat(); 
if (deduct > 0) {
    return 10000 + deduct; 
}else if(deduct==0 || (deduct<1 && deduct>0)){
    return 20000; 
}else{
    return  doc['unitCost'].value.toFloat()-couponPrice;
}

通過 couponPrice 變量表示優惠券面值金額,如果當前商品抵扣完是負數說明需要排序在前面,那麼如何和抵扣完正數分開尼,這裏可以取一個稍微大點的值加上抵扣後的負值,這樣把負值轉換成正數自然就排序在前面。

抵扣後等於0的或者小於1大於0的值也是可以優先安排在前面,當然這裏還是不夠靈活的,最好的方式是根據當前面值、商品價格動態計算才準確。

最後就是抵扣完需要用戶在額外支付的排在最後面,直接取需要額外支付的金額數值作爲排序。

通過 ES 評分我們能做很多事情,這個case只是一個簡單的場景。

作者:王清培 (滬江集團資深架構師)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章