Adapting Markov Decision Process for Search Result Diversification

多樣化排名的MDP形式

多樣化排序模型可以被看作是在每一個排序位置學習MDP模型的參數。其中MDP的states,actions,rewards,transitions和policy。
State S:
st=[Zt,Xt,ht]s_t=[Z_t, X_t,h_t]
其中hth_t是編碼了用戶從之前的文檔ZtZ_t接收到的untility,還有基於q需要的信息的一個向量。
在t=0時,狀態被初始化爲s0=[Z0,X0=X,h0]s_0=[Z_0,X_0=X,h_0]
h0h_0被初始化爲用戶需要的初始信息需求:h0=σ(Vqq)h_0= \sigma(V_q q)
Actions A:
在每個時間t,A(st)A(s_t)是actions的集合,對應於當前可以選擇的候選文檔集合。
Transition T:
轉移函數T包含三個部分:
在這裏插入圖片描述
其中第三項由當前最後的狀態hth_t和選擇的文檔結合來形成一個新的狀態。
其中VVVqV_q是不同的參數。

Reward R:
reward是用來評估當前選擇的文檔的質量的。在搜索結果多樣性中,基於多樣性評估度量來定義reward函數。基於αDCG\alpha-DCG,由選擇action ata_t得到的αDCG\alpha-DCG的提升可以被定義爲reward function。

由於訓練算法學習模型參數基於rewards的監督,根據多樣性評估標準來定義rewards可以指導訓練過程根據評估標準來獲得一個最優的模型。

Policy:

π: A×S[0,1]\pi:\ A \times S \rightarrow[0,1],給定當前的狀態和候選的actions,policy π\pi被定義爲一個normalized softmax fucntion,其輸入是utility和選擇的文檔的bilinear乘積:
在這裏插入圖片描述

多樣化排序的過程:

在這裏插入圖片描述
在這裏插入圖片描述
給定query q,M個候選文檔XX的集合,對應的真實標籤J:
系統的狀態初始化爲:
s0=[Z0,X0=X,h0=σ(Vqq)]s_0=[Z_0,X_0=X,h_0 = \sigma(V_qq)]
for t=0,…,M-1:
st=[Zt,Xt,ht]s_t=[Z_t, X_t,h_t],選擇一個action ata_t從候選集合中選擇一個文檔xm(at)x_{m(a_t)}。狀態變爲st+1=[Zt+1,Xt+1,ht+1]s_{t+1}=[Z_{t+1}, X_{t+1},h_{t+1}]。基於query的真實標籤J,可以計算immediate reward rt+1=R([Zt,Xt,ht],at)r_{t+1}=R([Z_t, X_t,h_t],a_t),其可以用於訓練模型參數的監督信息。
這個過程重複,直到候選集合爲空。

在測試或者是在線排名階段,沒有帶標籤的數據可以利用所以也就沒有reward。所以就使用學習得到的policy來構造排序。

Learning with policy gradient

在這裏插入圖片描述
在這裏插入圖片描述
模型有參數:θ={Vq,U,V,W}\theta=\{V_q, U, V, W\}來學習。我們根據多樣性評估標準來學習參數。算法1中展示了MDP-DIV.
算法1根據Monte-Carlo隨機梯度上升來更新模型參數,在每次迭代,模型參數根據在這裏插入圖片描述的梯度來調整參數,由step size η\eta, discount rate γt\gamma^t,long -term return GtG_t:定義爲來自位置t的reward的折扣總和:
在這裏插入圖片描述
如果γ=1\gamma=1,G0,G_0是在文檔列表的最終排名計算得到的評估度量。(Intuitively, the setting of Gt let the parameters move most in the directions so that the favor actions can yield the highest return.)

Online ranking

在線學習階段,排名系統接收到用戶query q和相關的文檔結合X,
但是沒有真實標籤J來計算immediate rewards,所以系統就使用學習到的policy π\pi來生成多樣性排序。也就是一個貪心搜索的過程,每次選擇後驗概率最大對應的action,返回的action更新狀態用來選擇下一個action。
在這裏插入圖片描述

Advantages

  • MDP-DIV不需要handcrafting 相關性和新穎性特徵(構建準確的特徵是很困難的)。輸入到模型中的是query和文檔的向量表示(例如:由doc2vec學習到的分佈式表示)。
  • MDP-DIV利用immediate rewards和long-term returns作爲監督信息。具體而言,參數在收到每個immediate rewards後更新(算法1的第5-8行)。 同時,更新規則還利用long-term return Gt,其累積所有未來的rewards(重新縮放步長)(算法1的第6-7行)。
  • MDP-DIV使用統一標準,搜索用戶可以感知的附加utility,用於在每次迭代時選擇文檔。 相反,大多數現有方法採用的標準,例如邊際相關性,由兩個單獨的因素組成:相關性和新穎性。在MDP框架中,文檔選擇標準可以被統一爲“the perceived utility”
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章