人工智能筆記之專業選修課4.1.5 - 博弈論 10.博弈學習,虛構博弈簡介,無悔學習簡介,後悔匹配簡介

博弈學習

(learning)

我們會看學習在重複博弈中的兩種學習類型
  • 虛構博弈 (fictitious play)
  • 無悔學習(no-regret learning) ,尤其是一個算法叫後悔匹配 (regret matching)
目前這個話題量非常大
首先我們應該認識到在博弈論中的學習,與其他一些學科中的學習是相當不同的。比如 在機器學習,人工智能,計算機科學或者統計學優化中。
單個行動主體在環境中行動,環境對行動主體是未知的,它也可能是部分可觀測的
那麼就很難找出什麼是最優策略,但對於最優策略有明確的定義。學習的目標是學習環境中的一些事物,如何在其中表現得最好。
在博弈論的情形下,我們的路徑由其他所有參與者組成,即便你在努力學習和適應 他們也是。 最後發生的是,你無法區分學習與傳授的概念,因爲當你適應時,你在影響其他參與者的活動。

虛構博弈(fictitious play)

在這裏插入圖片描述
在這裏插入圖片描述

硬幣頻率

在這裏插入圖片描述

虛構博弈收斂

在這裏插入圖片描述

無悔學習

在這裏插入圖片描述

後悔匹配 (regret matching)

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章