@HCPTangHY 在小米罗福莉团队发布 ARL-Tangram 系统：将智能体强化学习资源效率提升超七成中发帖北京大学计算机学院与小米Mimo团队联合提出了一种名为ARL-Tangram的动作级资源管理系统

@HCPTangHY 在小米罗福莉团队发布 ARL-Tangram 系统：将智能体强化学习资源效率提升超七成中发帖

北京大学计算机学院与小米Mimo团队联合提出了一种名为ARL-Tangram的动作级资源管理系统。该研究指出，传统的智能体强化学习框架通常采用静态的资源预留方式，导致在大语言模型生成期间，用于代码执行的 CPU 或奖励模型的 GPU 资源长时间处于闲置状态。实验数据显示，ARL-Tangram 能够将外部资源的消耗降低 71.2%，目前该系统已成功应用于小米 MiMo 系列模型的生产环境训练中。 
 [image] 
[image] 
实验数据证实，这种更灵活的分配策略显著加快了训练节奏。在实际的 AI 编程训练任务中，动作完成的平均等待时间降低到了原来的四分之一左右，整体训练速度也因此提升了 50%。该系统目前已经正式投入生产环境，用于支撑小米 MiMo 系列模型的迭代。