Determining the informational, navigational and transactional intent of web queries

一篇非常長的文章,裏面的研究方法非常值得借鑑。從問題的分析,到數據的採集與加工,再到實驗以及實驗分析等等,都非常的詳細。論文題目是《Determining the informational, navigational and transactional intent of web queries》,翻譯過來是“Web查詢中的信息類、導航類和事務類的識別”。作者是Jansen, Bootn 和 Spink。

 

摘要

本論文將要定義以及表述一種容易理解的對於Web查詢的分類。該分類包含了3個層次,頂層仍然是信息類、事務類和導航類。然後需要對每個類別定義一些屬性特徵,然後建立一個能夠自動將Web查詢進行分類的應用。最終的結果和Border的調查結果相差比較大,80%都屬於信息類,其他兩個都小於10%。最終的準確率達到了74%,剩下的基本都是本身具有模糊性的。根據以往的研究表明,搜索引擎提供的不僅僅是信息類的服務,還有很多其他的一些功能,比如說導航或者想進行一些商務交易。

 

本文研究的重點是,找到一種方法,能夠有效地對用戶的查詢進行分類。首先需要將用戶查詢的類別進行組織,然後每個查詢用其本身的內容或者一些其他的特徵來表述,也就是找特徵。然後的工作就是建立一個能夠自動分類的程序,並且介紹了意圖分類最終能夠怎麼被使用。

 

相關研究

用戶意圖分析有三個子領域:

  • 經驗學習和用戶調查:這個主要是再研究的前期,主要是通過經驗或者一些調查問卷的形式來收集。
  • 人工的分析日誌:這個前幾年研究都非常的火熱,Broder對於日誌的研究並且最終確定的三個分類體系影響深遠。還有上一篇Rose的論文中,用到了查詢者的查詢,查詢者的點擊結果,以及查詢結果來對用戶查詢進行分類。
  • 自動分類:上面兩個都是人工的分類,但是自動分類纔是最終的目的。

 

總的來說,根據前人的工作,幾個趨勢:

  • 已經存在了被廣泛使用的分類體系;
  • 主要的研究還是在實驗室內,沒有大規模的真實的應用;
  • 很多的工作多多少少的加入了一些人工的分類在裏面;
  • 大規模的意圖自動分類研究還很少;
  • 很少的關於用戶真正的意圖的討論。

 

這些都成爲本論文的動機,回顧前人的工作,並且對大規模的真實的Web查詢進行分類的評價,並且相信這些努力能夠增強對用戶查詢的理解。

 

研究重點

  1. 建立一個用戶查詢意圖的可理解的分類:通過分析大量的真實的Web搜索交互日誌來建立一個更加詳細的類別體系。
  2. 通過識別每個查詢類別的特徵來是這些類別的識別工作可行:對每個類別中的查詢進行特徵分離,爲每個類別建立特徵集合
  3. 實現自動分類:對大規模數據集的自動分類,評價其有效性。

 

研究設計

  1. Web搜索的分類:首先還是總結了前人的一些分類的經驗和結論。查詢本身並非是表達查詢的唯一的方式,所以還需要一些額外的特徵信息。比如查詢的重構、垂直選擇性、系統反饋和返回頁面。
  2. Web查詢的特徵:大量的分析來自於多個搜索引擎的日誌來對每個類別的特徵進行抽取。除了查詢本省,還需要一些額外的特性比如再一個session中的查詢的順序,查詢長度,返回頁面以及“垂直”(這個沒有理解)。主要還是集中在Border的三個類別中,但是對於每一個類別,還需要迭代的方式抽取其子類別,這裏主要抽取了3層。
  3. Web查詢的自動分類:首先是數據集的問題,每個數據項包括的用戶表示、Cookie、時間、查詢串和源(網頁、圖片、視頻)。然後分析和加工了這些查詢,最終的目的是需要得到session中的一系列動作,這和上一篇論文是一樣的。

 

結果

  1. 分類:一個3層的分類體系,頂層的仍然是導航、信息和事務。每個類別(大類或者小類),都有非常詳細的定義,以及一些例子。
  2. 特徵:這裏抽取的特徵有一點像是啓發式,比如導航類,他的特徵是:包含“company/business/organization/people names”等等。其他的類別也有類似的特徵定義。
  3. 自動分類:對大量的真實的查詢按照“特徵”步驟中的進行自動分類。一個有意思的特點是80%左右的查詢都是信息類,還有一些錯分的比例,並且對其進行了非常詳細的分析。

 

總結

總結也是非常的詳細的,可以參考論文,比如論文提供的方法相比較前人的優點是什麼,缺點是什麼。最後還提到了如何用的問題。論文用到的特徵都只是用戶的查詢即可,而不會牽扯到其他的一些難於獲得的特徵,所以能夠有效地利用在搜索引擎中。一個很重要的例子就是關於商務的。商務搜索的一個子方面就是需要根據用戶的查詢,爲用戶提供一些類似於廣告的匹配。如果搜索引擎能夠預測到這是一個有電子商務意向的搜索,那麼就可以在排序算法中加重這些具有商務內容的網頁的權重。或者是在這樣的情況下,還可以增加廣告推廣的數量和質量,而不會引起用戶的反感。

 

自己的感覺是這個文章可能對我更大的作用在於這個論文的結構。分析問題,提出可能需要的步驟。解決問題,對於每個步驟設計一個合理的方法來解決。結論,對每個步驟得出一個結論並進行總結。應用方案,需要將這些算法最終用到什麼地方。最後是詳細的總結。整個論文的思路都非常的清晰,而且引用的論文之多,每個步驟都非常的詳細。

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章