小結

大腦收益系統相關的神經通路很複雜，且沒有被人類完全理解。但發展與成果是有的：

多巴胺神經活動的收益預測誤差假說：一羣科學家認識到了 TD 誤差行爲與產生多巴胺的神經元活動之間的驚人之處；
大腦實現了一個類似於“行動器-評判器”算法的東西，這是另一個重要的假說。行動器與評判器使用了不同的資格跡，且這是他們的唯一區別；
多智能體：多巴胺系統的顯著特徵是釋放多巴胺的神經纖維可以廣泛地投射到大腦的多個部分…強化學習智能體集合中的每個智能體都會收到相同的強化信號，這個信號取決於所有成員或團隊的活動。如果每個團隊的成員使用一個足夠有效的學習算法，則即使團隊成員之間沒有直接交流，團隊也可以集體學習，以提高整個團隊的績效，並按照全局廣播的強化信號進行評估。

後話：依舊是這個問題，我現在時間比較緊張，急於將《強化學習》這本書讀完；且現在沒有到達能研究心理學與神經科學的高度，因此對於第14、15章採取了略讀策略。個人認爲這些理論固然重要，且有啓發性，但其理論深度甚至已經超出了數學的範疇，即過於偏重理論。筆者會關注這些問題與新聞，希望其能爲筆者的工程問題帶來啓發。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《強化學習》中的第15章：神經科學

小結

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

Mellanox網卡開啓SR-IOV

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

【解決方案】pytorch中loss變成了nan | 神經網絡輸出nan | MSE 梯度爆炸/梯度消失

express : 無法將“express”項識別爲 cmdlet、函數、腳本文件或可運行程序的名稱。express: command not found

《強化學習》中的第11章：基於函數逼近的離軌策略方法

“我有必要寫技術博客嗎？” 寫技術博客一年，談談其得失優劣

【開發隨筆】以強化學習環境 gym 庫爲例：爲什麼日常中我應該試圖標準化接口？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結