對於查詢意圖的自動分類,在前期也介紹過一篇,通過的是點擊的分佈和錨文本的分佈信息來判斷。今天讀了一篇清華的論文,在國外引用都是非常多的,因爲對於日誌類的資源利用,貌似這個的效果(P和R)都是最好的。這個論文的題目是《Automatic Query Type Identification Based on Click Through Information》,作者是Yinqun Liu, Min Zhang等,來自清華大學。
摘要
本論文將要介紹一種更加有效地通過點擊信息分佈的查詢意圖分類的方法。首先從大量的日誌中分析了爲什麼可以用點擊信息分佈,以及錨文本信息爲什麼不是很有效。最後提出了兩個新的特徵來識別用戶查詢。結果顯示,這兩個特徵表現良好。
日誌分析
使用的日誌來自於sogou。一個很重要的觀點是我們要想利用點擊信息,只有當新的查詢在過去的日誌中有記錄。論文對一個月的搜索日誌進行了統計,發現每一天新來的查詢佔整個查詢的比例,結果發現低於10%。所以用點擊信息分佈來識別意圖是有效和可行的。用錨文本的分佈來識別導航類在以前說過,通過對日誌的分析發現,低於20%的查詢能夠使用錨文本信息,比例太小了,所以需要一種新的方法來識別。
查詢類別識別
論文提出了兩個新的特徵:n clicks satisfied( nCS )和top n results satisfied ( nRS )。
nCS:基於這樣一個假設:當用戶想找到一個導航類的查詢時,通常趨向於點擊很小數目的URL,簡稱爲“最小付出假設”。通過最大似然估計,nCS( q ) = ( 包含q的session並且點擊小於n ) / ( 包含q的查詢 )。通過對於日誌的分析,發現70%的查詢中,導航類的nCS都大於其他兩個類的總和。
nRS:基於這樣一個假設:當用戶相找到一個導航類的查詢時,通常只會點擊前n個查詢中的少數查詢。nRS( q ) = ( 包含q的session並且點擊只存在前n個結果中 ) / ( 包含q的session )。結果顯示80%的導航類查詢的nRS都大於其他兩個類。
決策樹:有了這兩個標準,另外加上一個點擊分佈,就可以用決策樹的方法來進行分類。在訓練是用了C4。5算法來組合這3個特徵,最有效的特徵時nRS。
結果
首先時信息/事務類的查詢集合和導航類查詢集合的構造。前者仍然是在搜索日誌中進行尋找,後者是根據hao123上面的分類目錄來構造的。最後的結果表面,該算法對於分類F能夠超過80%。在訓練集和測試集中表現都比單純的基於點擊分佈的效果好。
這篇論文在綜述性的文章中都被反覆的提到,足見它的重要性。最關鍵的是他很簡單,而且結果很好。