Query意圖識別分析

outline

近段時間在研究搜索的相關技術,在工作中主要涉及到資訊搜索功能的實現。我們採用了elasticsearch搜索引擎,es基礎es進階1。由於需要對搜索功能進行迭代,所以筆者繼續深入研究搜索原理和性能優化。本文主要研究以下幾點:

什麼是搜索
搜索評價指標
意圖識別
query改寫

什麼是搜索

一個搜索引擎的技術構建主要包含三大部分:
(1) 對query的理解
(2) 對內容(文檔)的理解
(3) 對query和內容(文檔)的匹配和排序

搜索的一般評價指標

基礎指標:
召回率(Recall)=檢出的相關文檔數/相關文檔數,也稱爲查全率,R∈[0,1]
準確率(Precision)=檢出的相關文檔數/檢出文檔數,也稱爲查準率,P∈[0,1]
F值:召回率R和正確率P的調和平均值
搜索發展的階段:

應用的初期:基於關鍵字的搜索
應用的發展期:基於主副標題的全文檢索
應用的成熟期:針對搜索進行排名優化
LTR
應用的進化期:個性化的搜索
意圖識別/“千人千面”/搜索建議等

意圖識別

是什麼
通過分類的辦法將句子或者我們常說的query分到相應的意圖種類
屬於“對query的理解”部分
本質上是一個分類問題
意圖識別搜索的一般過程:
S1. 用戶的原始 query 是 “michal jrdan”
S2. Query Correction 模塊進行拼寫糾錯後的結果爲:“Michael Jordan”
S3. Query Suggestion 模塊進行下拉提示的結果爲:“Michael Jordan berkley”和 “Michael Jordan NBA”,假設用戶選擇了“Michael Jordan berkley”
S4. Query Expansion 模型進行查詢擴展後的結果爲:“Michael Jordan berkley”和 “Michael I. Jordan berkley”
S5. Query Classification 模塊進行查詢分類的結果爲:academic
S6. 最後語義標籤(Semantic Tagging)模塊進行命名實體識別、屬性識別後的結果爲:[Michael Jordan: 人名][berkley:location]:academic
意圖識別的前提
意圖的劃分問題:技能/領域

用戶查詢的需求分類:

(1) 導航類
(2) 信息類
(3) 事務類

概念介紹:

用戶與搜索引擎的一輪完整交互過程稱爲一個Search Session,在Session裏提供的信息包括:用戶查詢詞(Query),用戶所點擊的搜索結果的標題(Title),如果用戶在Session期間變換了查詢詞(例如從Query1 -->Query2),則後續的搜索和點擊均會被記錄,直到用戶脫離本次搜索,則Session結束。

意圖識別的方法

1.詞表窮舉法/規則解析法
2.基於查詢點擊日誌 – 一般一條搜索日誌記錄會包括時間-查詢串-點擊URL記錄-在結果中的位置等信息。
3.機器學習方法(基於規則挖掘,基於Bayes、LR、SVM等傳統分類模型)–分類問題
query的分類
eg:識別每個實體詞的屬性,去索引裏面精確匹配對應的字段,從而提高召回的準確率
4.基於神經網絡(深度學習)–FastText

意圖識別的難點

1、輸入不規範,前文中已有介紹,不同的用戶對同一訴求的表達是存在差異性的。
2、多意圖,查詢詞爲:”水”,是礦泉水,還是女生用的化妝水。
3、數據冷啓動。當用戶行爲數據較少時,很難獲取準確的意圖。
4、沒有固定的評價標準。pv,ipv,ctr,cvr這種可以量化的指標是對搜索系統總體的評價,具體到用戶意圖的預測上並沒有標準的量化指標。
query改寫
query改寫,類目相關,命名實體識別和
query改寫包括:
query糾錯 – 如果搜索引擎返回的是空結果/或者結果過少,此時應該需要增加拼寫糾錯的處理
query擴展:
eg. “Michael Jordan berkley”和 “Michael I. Jordan berkley”
(1) 同義詞擴展表
(2) 使用詞向量進行同義詞拓展
(3) 如果query沒有相應返回,則根據用戶歷史數據拓展原query
query刪除 – 判斷丟棄哪個/些詞 (實體識別)

參考資料
https://www.jianshu.com/p/e46eae028af3
https://blog.csdn.net/shijing_0214/article/details/71250327
https://blog.csdn.net/shijing_0214/article/details/71080642

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章