針對PPO的一些Code-level性能優化技巧

原創

2020-11-25 13:07

Intro

這篇blog是我在看過Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之後的總結。

reward clipping

clip the rewards within a preset range( usually [-5,5] or [-10,10])

observation clipping

The state are first normalized to mean-zero, variance-one vectors

value function clipping

將\(Loss^{V} = (V_{\theta t} - V_{targ})^{2}\)替換爲\(L^{V} = min[ (V_{\theta t} - V_{targ})^{2} , (clip(V_{\theta t}, V_{\theta t-1}-\epsilon, V_{\theta t-1}+\epsilon) - V_{targ})^{2} ]\)

orthogonal initialization and layer scaling

use orthogonal initialization with scaling that varies from layer to layer

adam learning rate annealing

anneal the learning rate of Adam

hyperbolic tan activations

use hyperbolic tan activations when constructing the policy network and value network

global gradient clipping

clip the gradients such the 'global l2 norm' doesn't exceed 0.5

reward scaling

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

salesforce零基礎學習（一百三十九）Admin篇之Begins/Contains/Starts With 是否區分大小寫

本篇參考： https://help.salesforce.com/s/articleView?id=sf.customize_functions_begins.htm&type=5 https://help.salesforce.com/

2024-05-23 14:32:02

freebsd、openbsd、netbsd的區別

開源BSD有三大系列：freebsd、openbsd、netbsd。其實Mac OS X也是BSD系列，只不過是商業。 1.FreeBSD FreeBSD是從386BSD的基礎上發展起來的，而386BSD是由伯克利的計算機科學家Bill

2024-05-23 14:31:31

【dubbo】telnet 連接dubbo不支持ls命令解決方法

現象 dubbo服務的默認端口是20880，按照網上教程想查看dubbo服務，報錯 telnet 127.0.0.1 20880 dubbo>lsDubbo Telnet Unsupported command: ls 原因 Pleas

金大鑫要堅持

2024-05-23 14:29:51

微服務實踐k8s&dapr開發部署實驗（1）服務調用

前置條件安裝docker與dapr: 手把手教你學Dapr - 3. 使用Dapr運行第一個.Net程序安裝k8s dapr 自託管模式運行新建一個webapi無權限項目 launchSettings.json中applica

2024-05-23 14:28:01

2018 年上半年數據庫系統工程師考試

基礎知識 ● 計算機運行過程中，遇到突發事件，要求 CPU 暫時停止正在運行的程序，轉去爲突發事件服務，服務完畢，再自動返回原程序繼續執行，這個過程稱爲__(1)，其處理過程中保存現場的目的是(2)__。（1）A.阻塞 B.中斷 C.動態

2024-05-23 14:27:10

2020年上半年數據庫系統工程師考試

基礎知識 ● 下列屬於 CPU 中算術邏輯單元的部件是（1）。（1）A、程序計數器 B、加法器 C、指令寄存器 D、指令譯碼器參考答案：（1）B ● 在 CPU 和主存之間設置

2024-05-23 14:27:10

2019 年上半年數據庫系統工程師考試

基礎知識 ● 計算機執行程序時，CPU中（1）的內容是一條指令的地址。（1）A、運算器 B、控制器 C、程序計數器 D、通用寄存器參考答案：（1）C ● DMA控制方式是在（2）之間直接建立數據通路進行數據的交換處理。（2）A、CPU

2024-05-23 14:27:10

Flink雙流Join

Flink雙流Join分爲window join、internal join、connect、維表廣播等方法,其中window join又分爲Tumbling Window Join、Sliding Window Join、Sessi

人不瘋狂枉一生

2024-05-23 14:25:50

.NET快速實現網頁數據抓取

前言今天我們來講講如何使用.NET開源（MIT License）的輕量、靈活、高性能、跨平臺的分佈式網絡爬蟲框架DotnetSpider來快速實現網頁數據抓取功能。注意：爲了自身安全請在國家法律允許範圍內開發網頁爬蟲功能。網頁數據

2024-05-23 14:25:17

解密Prompt系列29. LLM Agent之真實世界海量API解決方案：ToolLLM & AnyTool

很早之前我們就聊過ToolFormer，Gorilla這類API調用的Agent範式，這一章我們針對真實世界中工具調用的以下幾個問題，介紹微調(ToolLLM)和prompt(AnyTool)兩種方案。真實世界的API數量龐大且多樣：之

風雨中的小七

2024-05-23 14:25:10

第五節：基於Canal實現MySQL到Redis緩存數據同步

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-05-23 14:24:29

微服務下認證授權框架的探討

前言市面上關於認證授權的框架已經比較豐富了,大都是關於單體應用的認證授權,在分佈式架構下,使用比較多的方案是--<應用網關>,網關裏集中認證,將認證通過的請求再轉發給代理的服務,這種中心化的方式並不適用於微服務,這裏討論另一種方案--<認

2024-05-23 14:23:09

python讀取 json文件的方法

import json with open ('ocr結構化輸出/10000.json') as f: #調用的高精度騰旭ocr tmp=f.read() tengxunjieguo=json.loads(tmp) 別使用js

張博的博客

2024-05-23 14:22:49

nodejs在typescript項目中申明全局變量

這樣做的目的是避免循環引用，編寫多餘的類型文件 //global.d.ts import type { A } from "./a"; import type { B } from "./b"; declare global {

2024-05-23 14:19:09

一對多的時候,用逗號分隔,存id,還是建表存id

在數據庫設計中，處理一對多關係時，是否使用逗號分隔的ID列表（也稱爲“序列化”或“規範化不足”的方法）或創建一個新的關聯表來存儲這些ID，是一個常見的決策點。以下是兩種方法的比較和考慮因素： 1. 使用逗號分隔的ID列表優點：簡單易

2024-05-23 14:18:19

24小時熱門文章

最新文章

最新評論文章