【導讀】近期,Facebook開源了強化學習平臺Horizon,Horizon是用Python構建的,使用PyTorch進行建模和訓練,使用Caffe2進行模型服務。
Horizon是一個端到端平臺,旨在解決行業應用的RL問題。強化學習在其數據集很大(數百萬到數十億),反饋環路很慢(相對於模擬器)時,必須小心地進行實驗,因爲它們不在模擬器中運行。 與其他通常用於快速原型設計和實驗的RL平臺不同,Horizon的設計以生產用例爲首要考慮因素。 該平臺包含用於訓練流行的深度RL算法的工作流程,包括數據預處理,特徵轉換,分佈式訓練,反事實策略評估和優化服務。
支持的算法:
- Discrete-Action DQN
- Parametric-Action DQ
- Double DQN, Dueling DQN, Dueling Double DQN
- DDPG
- [Soft Actor-Critic] (https://arxiv.org/abs/1801.01290) (SAC)
Github地址:
https://github.com/facebookresearch/Horizon
論文地址:
https://research.fb.com/publications/horizon-facebooks-open-source-applied-reinforcement-learning-platform/
-END-