原创 上採樣和PixelShuffle
0、前言 上採樣:可以簡單的理解爲任何可以讓你的圖像變成更高分辨率的技術。 最簡單的方式是重採樣和插值:將輸入圖片input image進行rescale到一個想要的尺寸,而且計算每個點的像素點,使用如雙線性插值bilinear等插值方法
原创 GAE(Generalized Advantage Estimation) PPO
https://blog.csdn.net/zhkmxx930xperia/article/details/88257891 https://zhuanlan.zhihu.com/p/45107835 https://zhuanlan.z
原创 CMA-ES算法流程
https://blog.csdn.net/qq_40019838/article/details/99882885
原创 TRPO、PPO
https://blog.csdn.net/weixin_41679411/article/details/82421121 https://zhuanlan.zhihu.com/p/48293363 https://zhuanlan
原创 讀論文Trust Region Policy Optimization
這篇論文的作者星光閃耀,都是大牛級人物,而且是最頂尖的那種。第一作者是Schulman(cs294課程的主講人)、Levine和Abbeel也在作者名單裏面。 論文首先通過一些surrogate目標函數來保證較大的步長來進行策略優化和提升
原创 Natural Gradient Descent
https://zhuanlan.zhihu.com/p/142786862
原创 強化學習---TRPO/DPPO/PPO/PPO2
時間線: OpenAI 發表的 Trust Region Policy Optimization, Google DeepMind 看過 OpenAI 關於 TRPO後, 2017年7月7號,搶在 OpenAI 前面 把 Distrib
原创 深度解讀Soft Actor-Critic 算法
1 前言 機器人學習Robot Learning正在快速的發展,其中深度強化學習deep reinforcement learning(DRL),特別是面向連續控制continous control的DRL算法起着重要的作用。在這一領域中
原创 TRPO
https://zhuanlan.zhihu.com/p/26308073
原创 強化學習筆記之淺談ACKTR
https://zhuanlan.zhihu.com/p/122997370 2017年NIPS上的文章"Scalable trust-region method for deep reinforcement learning usi
原创 tensorflow的函數自動求導是如何實現的?
https://www.jianshu.com/p/8550efaed7f8 back propagation (BP)算法拓展——自動微分簡介:前向模式、反向模式及python代碼實現 https://www.cnblo
原创 position embedding
https://www.cnblogs.com/shiyublog/p/11236212.html https://www.zhihu.com/question/279523792?sort=created https://www.z
原创 DDPG(Deep Deterministic Policy Gradient)算法詳解
https://blog.csdn.net/qq_30615903/article/details/80776715
原创 【確定性策略梯度類】 DPG,DDPG,TD3,D4PG
https://zhkmxx9302013.github.io/post/dad17569.html
原创 DTW(Dynamic Time Warping) 動態時間規整
https://www.jianshu.com/p/4c905853711c