Understanding User Goals in Web Search

這是04年的一篇論文,題目是《Understanding User Goals in Web Search》,翻譯過來就是Web檢索中的用戶意圖理解。這個論文之所以我想看,是因爲他的作者是搜索巨頭雅虎裏面的牛人寫得,而且和鼻祖Border的分類體系不一樣,這個論文的分類體系更加的精確化。

 

摘要

以前研究的最多的,還是這些所謂的用戶怎麼查詢,以及他們查詢什麼的問題,但是並不關注爲什麼會查,也就是查詢的真正意圖是什麼。本文描述了一個理解用戶查詢意圖的框架,但是這個框架是人工分類的框架。然後作了一些實驗,發現所謂的導航類的查詢比想象的要少。而且還將傳統的事務類用資源類來進行代替。

 

簡介

如果搜索引擎知道了用戶的真正意圖,那麼搜索的質量將怎麼樣得到提高?至少來說,搜索引擎可以根據意圖對結果進行不同的展示。比如說,現在的搜索引擎大多數有些推廣廣告在裏面,但是隻有用戶的意圖在買東西的時候受歡迎,而如果用戶是想查詢一些信息,可能就不是很需要了。目前的搜索結果的重排序算法應該根據查詢意圖的不同而進行改變。總的來說,要完成這個任務,需要注意3點:

  1. 需要對用戶意圖建立一個概念框架;
  2. 需要建立一種能夠讓搜索引擎把用戶意圖和查詢關聯起來的方式;
  3. 需要改變搜索引擎來適應意圖信息。

 

分類體系

第一個任務是要理解用戶意圖的空間。通俗的講,就是需要建立一個框架,它能夠識別和組織好用戶的意圖。也就是要建立一個能夠對意圖進行概括的分類體系。和其他的一樣,這樣需要從大量的真實的查詢日誌中來進行歸納。採用頭腦風暴的形式,用自己的經驗來建立一個心得分類體系。第一個發現就是有相當一部分的查詢的意圖是需要找到一個一些在線的資源。比如說”beatles lyrics”表面用戶並不是要找關於歌詞的信息,而是直接想得到它的歌詞。當對分類體系進行細分的時候,發現可以建立一個層次的分類體系。

  • 導航類:用戶需要查找一個組織或者網站的首頁。查詢必須在心裏就知道有一個權威的關於查詢的網站。
  • 信息類:關注的是對於查詢內容的信息的獲取。這個類別下分,還有問題回答,建議或者一些相關信息。
  • 資源類:需要獲得在網頁上面能夠使用的資源信息。比如說下載,娛樂,交互或者獲得一些資源。

 

將查詢和意圖關聯

有兩個方法能夠將查詢和意圖動態的關聯:用戶顯式的在用戶接口上面表面或者系統自動的分類。比如Google的“I'm feeling lucky”,就表明用戶需要直接進入一個關於查詢的權威網站。第二個方法就是我以後要重點研究的方法,需要用的統計機器學習的方法,這可能需要成千上萬的樣例來進行訓練。

人工查詢分類

看到查詢本身或者藉助於其他的一些特徵,是否能夠對查詢進行分類?本文設計了一個人工分類的網頁,還需要藉助於其他的特徵包括:查詢本身,搜索引擎返回的結果,用戶的點擊結果和用戶的進一步的搜索或者其他的動作。可以看到,3和4的特徵都需要有查詢日誌的支持。這個分類方法的意義在於一方面看是否有可能進行分類,如果能夠分類,這些標註信息就可以作爲訓練數據。所以第一步就是要處理日誌,來分析用戶在一次查詢中的相關動作。比如查詢“kelly blue book”,在日誌中需要記錄在什麼時間第一次查詢,隔了多少時間進行了下一個動作,下一個動作是重新查詢或者是點擊了結果。重新查詢的重新查詢了什麼,以及點擊的結果是什麼等信息。然後根據這些信息,來對用戶的查詢進行綜合的評價,並且最終將其歸納爲一個類別。

 

結果

關於結果,論文中有很多的圖表進行支持。結果顯示和Border的三個類別的比例有所不同,特別是信息類增多了,查詢類相對變少了。作者相信,如果搜索引擎要提高搜索質量,那麼肯定需要更多的考慮用戶的意圖。

 

這個論文寫得比較早,那個時候大多數搜索引擎比如百度才建立沒有幾年,所以可能還集中在分類體系的建立,以及這樣的分類體系的建立能夠對搜索引擎的改善帶來多少效果的問題上。現在的研究重點多半開始集中在意圖的自動分類上面,這個是現在的研究重點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章