理解增強學習的評估

● 每週一言

潛能,通常是逼出來的。

導語

在前面機器學習方法篇系列中,小鬥給大家簡單介紹了什麼是增強學習,以及增強學習最基礎的幾個算法概念(MDP、DP、MC、TD)。基本上,策略函數的優劣決定了整個模型的好壞。那麼,如何評估增強學習的策略?和評估 監督/無監督學習 有何不同?

RL評估

我們知道,在監督學習中,樣本數據有明確的label標籤值,我們可以通過計算預測值和標籤值之間的AUC、F1 score等指標來評估模型的優劣;在無監督學習中,我們則通常使用距離度量衍生出來的指標來衡量模型的好壞。

比如,AUC指標較高的模型,模型能力通常較好,關於AUC的講解可參見文章 如何直觀理解AUC評價指標?

而在增強學習中,訓練樣本既沒有label的概念,也不存在距離的度量,只有 reward(回報或獎勵)。那麼增強學習到底如何評估?

最直觀也是最能想到的評估方法,就是 直接計算法(Direct Method,DM)

舉例說明:行爲空間{a1,a2},對應的獎勵分別是{10,6},當前策略函數 π 給出的行動概率分別是{50%,50%}。我們用DM直接評估該策略的收益,就是 10 * 50% + 6 * 50% = 8,策略函數 π 在當前樣本下的收益評估即爲8。

問題來了,獎勵值{10,6}的均值期望和真實的獎勵期望往往並不相等。打個比方,姚明NBA職業生涯罰籃命中率是83.3%,假如我們隨機抽看其兩場比賽,發現其中一場罰籃10中6,另一場10中7,平均下來這兩場罰籃命中率只有65%,和83.3%相去甚遠。

究其原因,是受樣本本身抽樣的限制,如果統計所有比賽的期望,就是83.3%,即無偏估計。而增強學習在現實場景中,幾乎不可能窮舉所有樣本,所以用DM來評估增強學習算法,太簡單粗暴,不夠準確。

那麼,有沒有好一點的辦法來評估?自然是有的,那就是 重要性採樣(Importance Sampling,IS)。增強學習所有流行的評估方法,幾乎都是在IS方法的基礎之上做的延伸和改進。

接下來的幾篇文章,小鬥將逐一給大家分享增強學習評估界的一些 state of the art 方法。當然,小鬥也在慢慢的學習領悟,難免出現理解謬誤之處,希望大家不吝指教,多多留言討論。

以上便是增強學習評估方面的簡單介紹,敬請期待下節內容。

結語

感謝各位的耐心閱讀,後續文章於每週日奉上,敬請期待。歡迎大家關注小鬥公衆號 對半獨白

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章