人工智能筆記之專業選修課4.1.5 - 博弈論 10.博弈學習，虛構博弈簡介，無悔學習簡介，後悔匹配簡介

博弈學習

(learning)

我們會看學習在重複博弈中的兩種學習類型

虛構博弈 (fictitious play)
無悔學習(no-regret learning) ，尤其是一個算法叫後悔匹配 (regret matching)

目前這個話題量非常大

首先我們應該認識到在博弈論中的學習，與其他一些學科中的學習是相當不同的。比如在機器學習，人工智能，計算機科學或者統計學優化中。

單個行動主體在環境中行動，環境對行動主體是未知的，它也可能是部分可觀測的

那麼就很難找出什麼是最優策略，但對於最優策略有明確的定義。學習的目標是學習環境中的一些事物，如何在其中表現得最好。

在博弈論的情形下，我們的路徑由其他所有參與者組成，即便你在努力學習和適應他們也是。最後發生的是，你無法區分學習與傳授的概念，因爲當你適應時，你在影響其他參與者的活動。

虛構博弈(fictitious play)

硬幣頻率

虛構博弈收斂

無悔學習

後悔匹配 (regret matching)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

人工智能筆記之專業選修課4.1.5 - 博弈論 10.博弈學習，虛構博弈簡介，無悔學習簡介，後悔匹配簡介

博弈學習

我們會看學習在重複博弈中的兩種學習類型

虛構博弈 (fictitious play)

無悔學習(no-regret learning) ，尤其是一個算法叫後悔匹配 (regret matching)

目前這個話題量非常大

首先我們應該認識到在博弈論中的學習，與其他一些學科中的學習是相當不同的。比如在機器學習，人工智能，計算機科學或者統計學優化中。

單個行動主體在環境中行動，環境對行動主體是未知的，它也可能是部分可觀測的

那麼就很難找出什麼是最優策略，但對於最優策略有明確的定義。學習的目標是學習環境中的一些事物，如何在其中表現得最好。

在博弈論的情形下，我們的路徑由其他所有參與者組成，即便你在努力學習和適應他們也是。最後發生的是，你無法區分學習與傳授的概念，因爲當你適應時，你在影響其他參與者的活動。

虛構博弈(fictitious play)

硬幣頻率

虛構博弈收斂

無悔學習

後悔匹配 (regret matching)

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

人工智能教程 - 學科基礎課程2.6 - 機器學習導論 14.降維,數據壓縮,可視化數據,PCA簡介

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 7.在線算法,貪心算法,完美匹配

人工智能筆記之專業選修課4.1.5 - 博弈論 1.退避機制，博弈基本概念，重要元素，形式

人工智能教程 - 專業選修課程4.3.5 - 強化學習 12.無模型預測,蒙特卡羅強化學習

人工智能筆記之專業選修課4.1.5 - 博弈論 2.經典囚徒困境等經典博弈場景

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

人工智能筆記之專業選修課4.1.5 - 博弈論 10.博弈學習，虛構博弈簡介，無悔學習簡介，後悔匹配簡介

博弈學習

我們會看學習在重複博弈中的兩種學習類型

虛構博弈 (fictitious play)

無悔學習(no-regret learning) ，尤其是一個算法叫後悔匹配 (regret matching)

目前這個話題量非常大

首先我們應該認識到在博弈論中的學習，與其他一些學科中的學習是相當不同的。比如 在機器學習，人工智能，計算機科學或者統計學優化中。

單個行動主體在環境中行動，環境對行動主體是未知的，它也可能是部分可觀測的

那麼就很難找出什麼是最優策略，但對於最優策略有明確的定義。學習的目標是學習環境中的一些事物，如何在其中表現得最好。

在博弈論的情形下，我們的路徑由其他所有參與者組成，即便你在努力學習和適應 他們也是。 最後發生的是，你無法區分學習與傳授的概念，因爲當你適應時，你在影響其他參與者的活動。

虛構博弈(fictitious play)

硬幣頻率

虛構博弈收斂

無悔學習

後悔匹配 (regret matching)

首先我們應該認識到在博弈論中的學習，與其他一些學科中的學習是相當不同的。比如在機器學習，人工智能，計算機科學或者統計學優化中。

在博弈論的情形下，我們的路徑由其他所有參與者組成，即便你在努力學習和適應他們也是。最後發生的是，你無法區分學習與傳授的概念，因爲當你適應時，你在影響其他參與者的活動。