@stevessr 在 ARL-Tangram 释放代理强化学习中的资源效率 中发帖
代理强化学习(RL)已成为云集群中的一种变革性工作负载,使大型语言模型(LLMs)能够通过与现实世界的交互解决复杂问题。然而,与传统强化学习不同,代理强化学习需要大量外部云资源,例如用于代码执行的CPU和用于奖励模型的GPU,这些资源存在于主训练集群之外。现有的代理强化学习框架通常依赖静态过度配置,即资源常被绑定于长寿命轨迹或被任务隔离,导致严重的资源效率低下。我们提出了动作级编排,并将其集成到ARL-Tangram中,这是一个统一的资源管理系统,实现了细粒度的外部资源共享和弹性。ARL-Tangram采用统一的动作级表述和弹性调度算法,在满足异构资源约束的同时,最小化动作完成时间(ACT)。此外,异构资源管理器被定制为高效支持具有异构特性和拓扑的资源的动作级执行。对现实世界智能强化学习任务的评估表明,ARL-Tangram可将平均ACT提升多达4.3
,将RL训练步长缩短多达1....