原创 上採樣和PixelShuffle

0、前言 上採樣:可以簡單的理解爲任何可以讓你的圖像變成更高分辨率的技術。 最簡單的方式是重採樣和插值:將輸入圖片input image進行rescale到一個想要的尺寸,而且計算每個點的像素點,使用如雙線性插值bilinear等插值方法

原创 GAE(Generalized Advantage Estimation) PPO

https://blog.csdn.net/zhkmxx930xperia/article/details/88257891 https://zhuanlan.zhihu.com/p/45107835 https://zhuanlan.z

原创 CMA-ES算法流程

https://blog.csdn.net/qq_40019838/article/details/99882885

原创 TRPO、PPO

https://blog.csdn.net/weixin_41679411/article/details/82421121 https://zhuanlan.zhihu.com/p/48293363   https://zhuanlan

原创 讀論文Trust Region Policy Optimization

這篇論文的作者星光閃耀,都是大牛級人物,而且是最頂尖的那種。第一作者是Schulman(cs294課程的主講人)、Levine和Abbeel也在作者名單裏面。 論文首先通過一些surrogate目標函數來保證較大的步長來進行策略優化和提升

原创 Natural Gradient Descent

https://zhuanlan.zhihu.com/p/142786862

原创 強化學習---TRPO/DPPO/PPO/PPO2

時間線: OpenAI 發表的 Trust Region Policy Optimization,  Google DeepMind 看過 OpenAI 關於 TRPO後, 2017年7月7號,搶在 OpenAI 前面 把 Distrib

原创 深度解讀Soft Actor-Critic 算法

1 前言 機器人學習Robot Learning正在快速的發展,其中深度強化學習deep reinforcement learning(DRL),特別是面向連續控制continous control的DRL算法起着重要的作用。在這一領域中

原创 TRPO

https://zhuanlan.zhihu.com/p/26308073

原创 強化學習筆記之淺談ACKTR

  https://zhuanlan.zhihu.com/p/122997370 2017年NIPS上的文章"Scalable trust-region method for deep reinforcement learning usi

原创 tensorflow的函數自動求導是如何實現的?

https://www.jianshu.com/p/8550efaed7f8   back propagation (BP)算法拓展——自動微分簡介:前向模式、反向模式及python代碼實現       https://www.cnblo

原创 position embedding

https://www.cnblogs.com/shiyublog/p/11236212.html https://www.zhihu.com/question/279523792?sort=created   https://www.z

原创 DDPG(Deep Deterministic Policy Gradient)算法詳解

https://blog.csdn.net/qq_30615903/article/details/80776715

原创 【確定性策略梯度類】 DPG,DDPG,TD3,D4PG

  https://zhkmxx9302013.github.io/post/dad17569.html

原创 DTW(Dynamic Time Warping) 動態時間規整

https://www.jianshu.com/p/4c905853711c