在搜索算法中,關鍵詞類目是非常重要的一個話題,是搜索排序中的一個重要模塊。搜索排序可以可以簡單的分成幾個模塊:文本相關性、質量分、轉化率。文本相關性可以由粗到細分解爲類目相關性、屬性相關性、語義相關性幾個部分。本文重點解析一下類目相關性。
例如用戶搜索“連衣裙”,最相關的類目是“女裝-連衣裙”、“童裝-連衣裙”。而其他類目中包含連衣裙就不是那麼相關,例如帽子類目的商品“適合沙灘連衣裙的帽子”。所以我們可以簡單的把商品區分爲類目相關和類目不太相關的兩個部分。而如何區分是否相關就需要用到關鍵詞的類目預測。
給個例子:student bag 的預測結果。
關鍵詞類目預測的算法很多,從發展路徑上來說分爲幾種方式:
- 通過pair <商品標題詞,類目> ,統計關鍵詞和類目的共現關係
- 統計用戶搜索Query,然後在結果集中點擊的商品的集合,統計商品類目的分佈。注意這裏的Query的term要全部在命中的商品標題中出現,而不是部分出現。
- 用分類算法的方式,樣本是<商品的標題詞,類目>,<Query,點擊的商品類目>。使用適合多分類的算法分類:最大熵、FastText、TextCNN、BI-LSTM + attention等算法。
在關鍵詞做類目預測之前可以做一個預處理提高準確率。如query歸一化、糾錯、去除價格區間詞、中英文翻譯對照等等。