探索和利用的困局(exploration exploitation dilemma):
- 利用是做出當前信息下的最佳決定,
- 探索則是嘗試不同的行爲繼而收集更多的信息。最好的長期戰略通常包含一些犧牲短期利益舉措。通過蒐集更多或者說足夠多的信息使得個體能夠達到宏觀上的最佳策略。
幾個基本的策略
- 樸素探索(Naive Exploration): 在貪婪搜索的基礎上增加一個Ɛ以實現樸素探索;
- 樂觀初始估計(Optimistic Initialization): 優先選擇當前被認爲是最高價值的行爲,除非新信息的獲取推翻了該行爲具有最高價值這一認知;
- 概率匹配(Probability Matching): 根據當前估計的概率分佈採樣行爲;
- 信息狀態搜索(Information State Search): 將已探索的信息作爲狀態的一部分聯合個體的狀態組成新的狀態,以新狀態爲基礎進行前向探索。
原文鏈接:https://blog.csdn.net/dukuku5038/article/details/84782354