@HCPTangHY小米罗福莉团队发布 ARL-Tangram 系统:将智能体强化学习资源效率提升超七成 中发帖

北京大学计算机学院与小米Mimo团队联合提出了一种名为ARL-Tangram的动作级资源管理系统。该研究指出,传统的智能体强化学习框架通常采用静态的资源预留方式,导致在大语言模型生成期间,用于代码执行的 CPU 或奖励模型的 GPU 资源长时间处于闲置状态。实验数据显示,ARL-Tangram 能够将外部资源的消耗降低 71.2%,目前该系统已成功应用于小米 MiMo 系列模型的生产环境训练中。 
[image]
[image]
实验数据证实,这种更灵活的分配策略显著加快了训练节奏。在实际的 AI 编程训练任务中,动作完成的平均等待时间降低到了原来的四分之一左右,整体训练速度也因此提升了 50%。该系统目前已经正式投入生产环境,用于支撑小米 MiMo 系列模型的迭代。