Query意圖識別分析

outline

近段時間在研究搜索的相關技術，在工作中主要涉及到資訊搜索功能的實現。我們採用了elasticsearch搜索引擎，es基礎和es進階1。由於需要對搜索功能進行迭代，所以筆者繼續深入研究搜索原理和性能優化。本文主要研究以下幾點：

什麼是搜索
搜索評價指標
意圖識別
query改寫

什麼是搜索

一個搜索引擎的技術構建主要包含三大部分：
(1) 對query的理解
(2) 對內容(文檔)的理解
(3) 對query和內容(文檔)的匹配和排序

搜索的一般評價指標

基礎指標:
召回率(Recall)=檢出的相關文檔數/相關文檔數，也稱爲查全率，R∈[0,1]
準確率(Precision)=檢出的相關文檔數/檢出文檔數，也稱爲查準率，P∈[0,1]
F值：召回率R和正確率P的調和平均值
搜索發展的階段：

應用的初期：基於關鍵字的搜索
應用的發展期：基於主副標題的全文檢索
應用的成熟期：針對搜索進行排名優化
LTR
應用的進化期：個性化的搜索
意圖識別/“千人千面”/搜索建議等

意圖識別

是什麼
通過分類的辦法將句子或者我們常說的query分到相應的意圖種類
屬於“對query的理解”部分
本質上是一個分類問題
意圖識別搜索的一般過程：
S1. 用戶的原始 query 是 “michal jrdan”
S2. Query Correction 模塊進行拼寫糾錯後的結果爲：“Michael Jordan”
S3. Query Suggestion 模塊進行下拉提示的結果爲：“Michael Jordan berkley”和 “Michael Jordan NBA”，假設用戶選擇了“Michael Jordan berkley”
S4. Query Expansion 模型進行查詢擴展後的結果爲：“Michael Jordan berkley”和 “Michael I. Jordan berkley”
S5. Query Classification 模塊進行查詢分類的結果爲：academic
S6. 最後語義標籤（Semantic Tagging）模塊進行命名實體識別、屬性識別後的結果爲：[Michael Jordan: 人名][berkley:location]:academic
意圖識別的前提
意圖的劃分問題：技能/領域

用戶查詢的需求分類:

(1) 導航類
(2) 信息類
(3) 事務類

概念介紹:

用戶與搜索引擎的一輪完整交互過程稱爲一個Search Session，在Session裏提供的信息包括：用戶查詢詞（Query），用戶所點擊的搜索結果的標題（Title），如果用戶在Session期間變換了查詢詞（例如從Query1 -->Query2），則後續的搜索和點擊均會被記錄，直到用戶脫離本次搜索，則Session結束。

意圖識別的方法

1.詞表窮舉法/規則解析法
2.基於查詢點擊日誌 – 一般一條搜索日誌記錄會包括時間-查詢串-點擊URL記錄-在結果中的位置等信息。
3.機器學習方法(基於規則挖掘，基於Bayes、LR、SVM等傳統分類模型)–分類問題
query的分類
eg:識別每個實體詞的屬性，去索引裏面精確匹配對應的字段，從而提高召回的準確率
4.基於神經網絡(深度學習)–FastText

意圖識別的難點

1、輸入不規範，前文中已有介紹，不同的用戶對同一訴求的表達是存在差異性的。
2、多意圖，查詢詞爲：”水”，是礦泉水，還是女生用的化妝水。
3、數據冷啓動。當用戶行爲數據較少時，很難獲取準確的意圖。
4、沒有固定的評價標準。pv,ipv,ctr,cvr這種可以量化的指標是對搜索系統總體的評價，具體到用戶意圖的預測上並沒有標準的量化指標。
query改寫
query改寫，類目相關，命名實體識別和
query改寫包括：
query糾錯 – 如果搜索引擎返回的是空結果/或者結果過少，此時應該需要增加拼寫糾錯的處理
query擴展：
eg. “Michael Jordan berkley”和 “Michael I. Jordan berkley”
(1) 同義詞擴展表
(2) 使用詞向量進行同義詞拓展
(3) 如果query沒有相應返回，則根據用戶歷史數據拓展原query
query刪除 – 判斷丟棄哪個/些詞 (實體識別)

參考資料
https://www.jianshu.com/p/e46eae028af3
https://blog.csdn.net/shijing_0214/article/details/71250327
https://blog.csdn.net/shijing_0214/article/details/71080642

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Query意圖識別分析

outline

什麼是搜索

搜索的一般評價指標

意圖識別

用戶查詢的需求分類:

概念介紹:

意圖識別的方法

意圖識別的難點

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

keras model.compile損失函數與優化器

知識圖譜(二)：圖數據庫neo4j的Linux安裝與基本使用

mongodb（從0到1），11天mongodb初級到中級進階祕籍

TF flags的簡介

2018個人年度工作總結與2019工作計劃（互聯網）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結