The Intention Behind Web Queries

今天看了一篇論文,在以前看的很多論文中,都被引用了。題目是《The Intention Behind Web Queries》,作者是Baeza等,同樣是來自雅虎。這篇論文說實話我非常沒有看懂,這裏只是作爲一個記錄,以後如果想起來了這裏提到過再回過頭來看看。

 

摘要

用戶意圖或者興趣的識別能夠讓搜索引擎提供更爲貼切的結果。本論文中獎要介紹一個自動識別用戶興趣的框架,他是基於查詢日誌的。識別有兩部分組成,一個是用戶的意圖,另一個是目錄。首先需要人工分類來作爲基礎,然後提供了有監督和無監督的學習方法來自動分類。結果表明,有監督效果更加的好,但是通過無監督學習卻能夠讓我們發現用戶和行爲之間的關係,而這種行爲通常通過查詢詞語來檢測。有監督還有一個很重要的作用是能夠通過聚類發現一些以前沒有考慮進去的類別。通過有監督學習我們能夠通過給出一個類別來識別用戶意圖,而無監督使我們能夠驗證這些已有的目錄,從而重定義並且選擇最爲合適的。

 

用戶意圖和目錄

要決定查詢的冬季,通常需要分兩步,一個是找到用戶的意圖,然後是映射這些查詢到一個特定的目錄。對於意圖,論文建立了三個大的意圖分類:信息類非信息類模糊類

另外一個用戶“興趣”識別的關鍵點是建立主題。這個能夠幫助我們在一個特定的領域識別它,並且將其關聯到一個主題。這裏用到的主題是ODP,包括了(藝術、遊戲、兒童等等)。

 

技術

對於有監督,論文選擇的是SVM來做,無監督是PLSA(Probabilistic Latent Semantic Analysis)。對於SVM,網上有個叫做jassper的博主,寫得SVM和文本分類系列非常的給力,讓菜鳥都能夠很容易的就看懂了。對於SVM,作者在論文裏面提到的很少,而且很牽強,不知道實際操作的時候是否是這樣的。首先SVM是基於結構風險最小化的,而且對於高維空間的分類效果更好。作者也說到了這一點,但是卻牽強的說很適合查詢分類問題。對於PLSA,我以前不是很瞭解,他在本問題中的作用是找出用戶進行搜索的“動機”。這裏也是描述的很牽強,只是簡單的說了PLSA貌似對“用戶興趣”分析非常的有效。

 

實驗

  • 數據集:抽樣了很多的查詢日誌。
  • 數據預處理:一個很重要的方面是要找出這些數據中存在的關係。每個查詢的預處理是將他們表示成詞串,每個詞有他們單獨的權重,用TFIDF計算。這裏的詞串並非是按照查詢本身來做的,而是按照每個查詢的正確答案的文檔來做。然後一個過程是對這些數據進行聚類,K-means,每個類別最後用一個描述。
  • 人工分類:由於先前有了聚類過程,所以這一步就比較簡單一點。首先給定一個查詢集合,和每個集合的類別信息。這個能夠幫助一部分本身不夠清晰的查詢的人工分類。論文中還有很多的人工分類的結果,包括查詢分類到目錄,查詢分類到意圖等等。

 

結果分析

  • 有監督:人工分類之後,這些標註的數據一部分就要用來訓練自動分類器。用SVM對測試集進行分類之後,信息類P和R都非常的好,模糊類非常的差。
  • 無監督:無監督的主要作用是要知道用戶“興趣”。一方面是是因爲在真正意圖到歸納意圖之間的不準確,另一方面是搜索引擎提供的結果的不準確。如果能夠有效地利用PLSA提供的結果,也就是能夠知道給定的查詢屬於某一個類別的概率,就能夠很好的分析每個類別的組成。他能夠有助於孩子到查詢和主題之間的直接或者間接的關係,然後我們就能夠更好地知道用戶興趣。(這個還沒有很好的理解,需要看看其他的資料)

 

結論

在本論文中,作了識別用戶興趣的第一步。從兩個方面來進行了分析:用戶的目的和這些目的的類別。爲了識別這些興趣,使用了人工分類,每一個查詢有一個意圖類別和一個分類類別。然後用了有監督和無監督的方法來進行自動識別。有監督分析中,對查詢採用了一箇中特殊的表示方式,然後查詢變得可識別。無監督方法知道了和“娛樂”、“性”和“商務”的需要非常容易檢測。

 

發佈了42 篇原創文章 · 獲贊 0 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章