A web search analysis considering the intention behind queries

今天看了一個電影叫做《哈特的戰爭》,感覺非常好看。然後看了一篇論文,論文非常的長,看得不是非常仔細。論文名《A web search analysis considering the intention behind queries》,翻譯過來是“基於查詢意圖的Web搜索分析”,作者是Marcelo Mendoza和Baeza-Yates,第二個作者應該非常熟悉了,雅虎的常客了。

 

摘要

隱藏在查詢背後的意圖識別能夠有效地增加搜索引擎的搜索質量。目前兩個非常重要的有利於意圖分類的資源是“文本”和“點擊”。這個在中文裏,很多都被稱爲“事先”和“事後”的方法。本論文,我們需要分析能夠增強意圖識別理解的因素,然後還需要識別哪些因素能夠準確的提升查詢分類的準確率。最終的結果表明,基於“文本”本身的特徵表現更好。在所有的查詢裏面,查詢長度,片段和查詢之間的Levenshtein距離和PageRank距離是匯重點考察的對象。

 

前言

這裏很大的一部分工作都是基於日誌的,所以和搜顯需要說一下關於日誌處理的一些問題。查詢實例(query instance),是在一個特定的時刻提交給搜索引擎的查詢,並且伴隨着一些選擇的返回文檔。查詢Session包含的是一系列的同一個用戶的查詢實例,要求在一個限制的時間範圍類。日誌就是這樣一個記錄在一定時間內,用戶和搜索引擎交互的過程。最終,作者選取了3個類別,分別是“信息類”,“非信息類”和“模糊類”。其實這三個類別的定義和以前都差不多,只需要稍微理解就能夠理解到位。其實這裏一個需要理解的是,這篇論文的目的是知道哪些因素能夠有效地對分類起作用,所以一個很重要的方法就是需要用圖例來說明每個因素在兩個類別中的分佈的差異。

 

文本分析

首先討論的還是查詢的“文本”本身。第一個重點考察的是組成查詢和返回文檔的詞彙之間的關係,結果顯示沒有很大的區別。另一個考察的是查詢的長度,結果顯示兩個類別的查詢此長度都在4及其以下,大於5更大的可能是信息類。最後一個考察的是查詢-文檔對之間的Levenshteein距離,結果顯示這個因素在兩個類別中也是非常的相似。

 

點擊信息分析

另外一個非常重要的信息源就是點擊數據了。爲了得到信息和非信息類別中的點擊區別,主要分析了以下因素:

  1. 在一定時間內查詢數目
  2. 每個查詢的查詢Session
  3. 每個查詢的文檔選擇數目
  4. 每個查詢session的文檔選擇數目
  5. 選擇文檔在返回列表中的位置
  6. Pagerank值的分佈
  7. nCS:對於一個查詢q,點擊了小於等於n個結果的session比例
  8. nRS:對於一個查詢q,只點擊了在前n個結果的session比例

 

論文中有非常多的散點圖,對於每一個檢測的因素都有非常詳細的分析。從圖的分析結果來看,這裏的每一個因素在信息類和非信息類中的分佈都非常的相似。所以從一定程度上來說,這些因素都不會給分類帶來很大的影響。

 

結論

一個非常重要的結論:基於文本的因素比基於點擊數據的因素在區別意圖類別上有更好地表現。在所有的結果中,查詢的長度,Levenshtein距離和pagerank值最有效果。最後得出的幾個結論:

  1. 信息類查詢和文檔中的詞集合比非信息類更有相關性
  2. 查詢詞的個數是一個很有效地區分信息和分信息的因素
  3. 查詢和文檔片段之間的Levenshtein(編輯)距離表明非信息類的距離要小於信息類的距離
  4. 點擊數據不容易區分意圖類別
  5. 查詢時間的分佈,非信息類查詢比信息類查詢更長
  6. nRS和nCS能夠區別出類別,但是可能不是很明顯
  7. pagerank值在非信息類中更高

 

這個論文非常的長,所以每一個因素在測評的時候都非常的詳細。分類現在的確是集中在兩個方面,一個是查詢本身,另一個就是點擊信息。這個論文對這些方法都用統一的方法,用統一的語料,用統一的分類體系來進行評測,對每個因素在不同的分類中的分佈來檢查每個因素對於意圖分類是否有效,並且最終得出了很多非常重要的結論。

 

 

發佈了42 篇原創文章 · 獲贊 0 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章