@stevessr 在 小米 发布VLA模型 Xiaomi-Robotics-0 中发帖
[!quote]+
我们推出了 Xiaomi-Robotics-0,这是一款先进的视觉-语言-动作(VLA)模型,针对高性能和快速流畅的实时执行进行了优化。我们方法的关键在于精心设计的训练方案和部署策略。Xiaomi-Robotics-0 首先在大量跨实体机器人轨迹和视觉语言数据上进行预训练,使其能够获取广泛且泛化的动作生成知识,同时保持强大的视觉语言能力。在训练后和部署过程中,我们采用异步执行技术来解决推理延迟问题,确保连续无缝的实时部署。
Xiaomi-Robotics-0 在三个仿真基准测试中均取得了最先进的性能。具体而言,它在 LIBERO 上的平均成功率达到了 98.7%。在 SimplerEnv 上,它在视觉匹配 (85.5%)、视觉聚合 (74.7%) 和 WidowX (79.2%) 任务中均表现出色。在 CALVIN 上,它在 ABC-D 和 ABCD-D 划分...