● 每週一言

潛能，通常是逼出來的。

導語

在前面機器學習方法篇系列中，小鬥給大家簡單介紹了什麼是增強學習，以及增強學習最基礎的幾個算法概念（MDP、DP、MC、TD）。基本上，策略函數的優劣決定了整個模型的好壞。那麼，如何評估增強學習的策略？和評估 監督/無監督學習 有何不同？

我們知道，在監督學習中，樣本數據有明確的label標籤值，我們可以通過計算預測值和標籤值之間的AUC、F1 score等指標來評估模型的優劣；在無監督學習中，我們則通常使用距離度量衍生出來的指標來衡量模型的好壞。

比如，AUC指標較高的模型，模型能力通常較好，關於AUC的講解可參見文章如何直觀理解AUC評價指標？

而在增強學習中，訓練樣本既沒有label的概念，也不存在距離的度量，只有 reward（回報或獎勵）。那麼增強學習到底如何評估？

最直觀也是最能想到的評估方法，就是 直接計算法（Direct Method，DM）。

舉例說明：行爲空間{a1，a2}，對應的獎勵分別是{10，6}，當前策略函數 π 給出的行動概率分別是{50%，50%}。我們用DM直接評估該策略的收益，就是 10 * 50% + 6 * 50% = 8，策略函數 π 在當前樣本下的收益評估即爲8。

問題來了，獎勵值{10，6}的均值期望和真實的獎勵期望往往並不相等。打個比方，姚明NBA職業生涯罰籃命中率是83.3%，假如我們隨機抽看其兩場比賽，發現其中一場罰籃10中6，另一場10中7，平均下來這兩場罰籃命中率只有65%，和83.3%相去甚遠。

究其原因，是受樣本本身抽樣的限制，如果統計所有比賽的期望，就是83.3%，即無偏估計。而增強學習在現實場景中，幾乎不可能窮舉所有樣本，所以用DM來評估增強學習算法，太簡單粗暴，不夠準確。

那麼，有沒有好一點的辦法來評估？自然是有的，那就是 重要性採樣（Importance Sampling，IS）。增強學習所有流行的評估方法，幾乎都是在IS方法的基礎之上做的延伸和改進。

接下來的幾篇文章，小鬥將逐一給大家分享增強學習評估界的一些 state of the art 方法。當然，小鬥也在慢慢的學習領悟，難免出現理解謬誤之處，希望大家不吝指教，多多留言討論。

以上便是增強學習評估方面的簡單介紹，敬請期待下節內容。

感謝各位的耐心閱讀，後續文章於每週日奉上，敬請期待。歡迎大家關注小鬥公衆號 對半獨白！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.