competitive ratio and online learning

在線學習思路解決bandits問題,包括如何構造損失函數,通過探索,以更好估計損失函數的結構(分佈),和通過利用,最小化遺憾傾向於選擇能最小化損失函數的決策,探索和利用之間的折中。

在線算法競爭比:
https://www.cnblogs.com/zhangzefei/p/9738642.html

基於梯度的學習,最小化訓練集上的經驗分佈和模型分佈之間的差異:
https://blog.csdn.net/cjm083121/article/details/89322111

Online Learning:
https://blog.csdn.net/hzwaxx/article/details/83867630

bandits問題基於在線學習思想解決,由於觀測的不充分,賭博機在線學習存在探索和利用兩者之間的困境。一方面,爲了準確地估計損失函數的結構,學習器需要嘗試更多的新決策;而另一方面,爲了最小化遺憾,學習器又傾向於選擇能最小化損失函數的決策。
https://blog.csdn.net/pouqiyu5090/article/details/85007053
https://blog.csdn.net/pouqiyu5090/article/details/84898609

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章