reward、loss、cost

原創

茶花煮酒

2020-02-22 12:55

1、損失函數、代價函數、目標函數

損失函數（Loss Function）：單個樣本的誤差/ 所有樣本的平均誤差。（存在混用）

代價函數、成本函數（Cost Function）：訓練集所有樣本的平均誤差，損失函數均值。可以加入正則化項。

目標函數（Object Function）：問題需要優化的函數，比較廣泛。我們研究問題一般是先確定一個“目標函數”，然後去優化它。

比如強化學習的目的是回報最大化、值函數最大化，值函數就是目標函數。比如CART的目的是最大化信息熵增益，信息熵增益就是值函數。

目標函數有最大化有最小化，代價函數總是最小化。

參考1：https://blog.csdn.net/lyl771857509/article/details/79428475 損失函數, 成本函數, 目標函數的區別

參考2：http://nooverfit.com/wp/損失函數-成本函數-目標函數-的區別

2、 reward、value function 與 value based

採用什麼方法完全取決於取得的效果。現在的研究發現policy gradient的方法效果比Q-learning這種單純基於value的方法好，所以選擇policy gradient，事實上是把兩者結合起來的actor-critic效果是最好的！只是說actor-critic的關鍵在於policy gradient。
從方法上講，Policy Gradient顯然比基於Value的方法更直接，輸入感知，輸出控制。按道理來說是更符合人類行爲的方法。特別在控制上，但是在一些離散的決策上，人類也是評估各方好壞value來做選擇的，所以這一塊Q-Learning應該會做的更好。未來機器人控制很可能會是深度學習要佔領的一塊地盤，在連續控制上，基於value的方法本身就不好做，連續DQN比如那個NAF方法使用了很多小技巧。而基於Policy的方法則很直接。

作者：博士倫2014
鏈接：https://www.jianshu.com/p/385ec272a7d6

值函數： $V_{\pi }\left ( s \right )=E_{\pi }\left [ R_{t+1}+\gamma R_{t+2} +\gamma ^{2}R_{t+3}+...|S_{t}=s\right ]$

Reward 定義了強化學習問題中的目標。在每個時間步，環境向agent發送一個稱爲reward的單個數字。Agent的唯一目標是最大化其長期收到的total reward。因此，reward定義了對於agent什麼是好的什麼是壞的。Reward 是改變policy的主要依據;如果policy選擇的action之後得到的是低獎勵，則可以更改policy以在將來選擇該情況下的某些其他action。Reward 通常是環境狀態(states)和所採取的動作(action)的隨機函數。

如果說reward表明的是在短時間內什麼是好的，那麼value function則指出從長遠來看什麼是好的。粗略地說，一個狀態的value是一個agent從該狀態開始，可以期望在未來積累的獎勵總額。例如，一個狀態可能總是會產生較低的即時獎勵，但仍然具有較高的value，因爲其他狀態經常會產生高reward。爲了進行類比，獎勵有點像快樂（如果高）和痛苦（如果低），而value則對應於我們對環境處於特定狀態的高興或不滿的更精確和有遠見的判斷。

Reward在某種意義上是主要的，而作爲reward預測的value是次要的。沒有reward就沒有value，估計value的唯一目的就是獲得更多reward。
然而，在制定和評估policy時，我們最關心的是value。Action的選擇基於value的判斷。我們尋求的action會帶來最高value而非最高reward的狀態，因爲從長遠來看，這些action會爲我們帶來最大的reward。

不幸的是，確定value要比確定reward要困難得多。reward基本上由環境直接給出，但value必須根據agent在其整個生命週期中所做的觀察序列來估計和重新估計。實際上，我們考慮的幾乎所有強化學習算法中最重要的部分是有效估計value的方法。

value估計的核心作用可以說是過去六十年中強化學習領域最重要的事情。

作者：博士倫2014
鏈接：https://www.jianshu.com/p/d15090f5a6ea
3、一些基礎公式推導

https://blog.csdn.net/hellocsz/article/details/80835542 介紹強化學習(reinforcement learning)----一些基本概念

茶花煮酒

發佈了36 篇原創文章 · 獲贊 4 · 訪問量 5897

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

reward、loss、cost

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

什麼是綜合（硬件）

SystemVerilog（六）：Testbench（綠皮書）

SystemVerilog（五）：斷言（SVA, SystemVerilog Assertion）

學科分類與學科門類

強化學習基礎第一個程序（建議在DQN跑CartPole之前）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結