《強化學習》中的第15章:神經科學

前言: 本次筆記對《強化學習(第二版)》第十五章進行概括性描述。

本次筆記內容依舊很少。神經科學是拓展部分,書上已經儘量將所舉例子語言簡化。

小結

大腦收益系統相關的神經通路很複雜,且沒有被人類完全理解。但發展與成果是有的:

  • 多巴胺神經活動的收益預測誤差假說:一羣科學家認識到了 TD 誤差行爲與產生多巴胺的神經元活動之間的驚人之處;
  • 大腦實現了一個類似於“行動器-評判器”算法的東西,這是另一個重要的假說。行動器與評判器使用了不同的資格跡,且這是他們的唯一區別;
  • 多智能體:多巴胺系統的顯著特徵是釋放多巴胺的神經纖維可以廣泛地投射到大腦的多個部分…強化學習智能體集合中的每個智能體都會收到相同的強化信號,這個信號取決於所有成員或團隊的活動。如果每個團隊的成員使用一個足夠有效的學習算法,則即使團隊成員之間沒有直接交流,團隊也可以集體學習,以提高整個團隊的績效,並按照全局廣播的強化信號進行評估。

後話:依舊是這個問題,我現在時間比較緊張,急於將《強化學習》這本書讀完;且現在沒有到達能研究心理學與神經科學的高度,因此對於第14、15章採取了略讀策略。個人認爲這些理論固然重要,且有啓發性,但其理論深度甚至已經超出了數學的範疇,即過於偏重理論。筆者會關注這些問題與新聞,希望其能爲筆者的工程問題帶來啓發。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章