多樣化排名的MDP形式
多樣化排序模型可以被看作是在每一個排序位置學習MDP模型的參數。其中MDP的states,actions,rewards,transitions和policy。
State S:
其中是編碼了用戶從之前的文檔接收到的untility,還有基於q需要的信息的一個向量。
在t=0時,狀態被初始化爲
被初始化爲用戶需要的初始信息需求:
Actions A:
在每個時間t,是actions的集合,對應於當前可以選擇的候選文檔集合。
Transition T:
轉移函數T包含三個部分:
其中第三項由當前最後的狀態和選擇的文檔結合來形成一個新的狀態。
其中和是不同的參數。
Reward R:
reward是用來評估當前選擇的文檔的質量的。在搜索結果多樣性中,基於多樣性評估度量來定義reward函數。基於,由選擇action 得到的的提升可以被定義爲reward function。
由於訓練算法學習模型參數基於rewards的監督,根據多樣性評估標準來定義rewards可以指導訓練過程根據評估標準來獲得一個最優的模型。
Policy:
,給定當前的狀態和候選的actions,policy 被定義爲一個normalized softmax fucntion,其輸入是utility和選擇的文檔的bilinear乘積:
多樣化排序的過程:
給定query q,M個候選文檔的集合,對應的真實標籤J:
系統的狀態初始化爲:
for t=0,…,M-1:
,選擇一個action 從候選集合中選擇一個文檔。狀態變爲。基於query的真實標籤J,可以計算immediate reward ,其可以用於訓練模型參數的監督信息。
這個過程重複,直到候選集合爲空。
在測試或者是在線排名階段,沒有帶標籤的數據可以利用所以也就沒有reward。所以就使用學習得到的policy來構造排序。
Learning with policy gradient
模型有參數:來學習。我們根據多樣性評估標準來學習參數。算法1中展示了MDP-DIV.
算法1根據Monte-Carlo隨機梯度上升來更新模型參數,在每次迭代,模型參數根據的梯度來調整參數,由step size , discount rate ,long -term return :定義爲來自位置t的reward的折扣總和:
如果是在文檔列表的最終排名計算得到的評估度量。(Intuitively, the setting of Gt let the parameters move most in the directions so that the favor actions can yield the highest return.)
Online ranking
在線學習階段,排名系統接收到用戶query q和相關的文檔結合X,
但是沒有真實標籤J來計算immediate rewards,所以系統就使用學習到的policy 來生成多樣性排序。也就是一個貪心搜索的過程,每次選擇後驗概率最大對應的action,返回的action更新狀態用來選擇下一個action。
Advantages
- MDP-DIV不需要handcrafting 相關性和新穎性特徵(構建準確的特徵是很困難的)。輸入到模型中的是query和文檔的向量表示(例如:由doc2vec學習到的分佈式表示)。
- MDP-DIV利用immediate rewards和long-term returns作爲監督信息。具體而言,參數在收到每個immediate rewards後更新(算法1的第5-8行)。 同時,更新規則還利用long-term return Gt,其累積所有未來的rewards(重新縮放步長)(算法1的第6-7行)。
- MDP-DIV使用統一標準,搜索用戶可以感知的附加utility,用於在每次迭代時選擇文檔。 相反,大多數現有方法採用的標準,例如邊際相關性,由兩個單獨的因素組成:相關性和新穎性。在MDP框架中,文檔選擇標準可以被統一爲“the perceived utility”