RLx2是清华大学团队提出的一种强化学习专用的稀疏训练框架,能够完全基于稀疏网络训练深度强化学习模型。
RLx2的特点:
1. 基于梯度的拓扑演化原则
2. 延迟多步差分目标机制
3. 动态容量的回放缓冲区
4. 支持超稀疏网络的训练
5. 在多个基准任务中表现优异,模型压缩比达到7.5倍至20倍
6. 训练和推理中浮点运算数减少高达20倍和50倍
RLx2的功能:
1. 用于训练高效的深度强化学习智能体
2. 在稀疏模型中实现稳健值学习
3. 进行高效的拓扑探索
相关推荐
暂无评论...