@stevessr 在小米发布VLA模型 Xiaomi-Robotics-0 中发帖[!quote]+ 我们推出了 Xiaomi-Robotics-0，这是一款先进的视觉-语言-动作（VLA）模型，针对高性能和快速流畅的实时执行进行了优化

@stevessr 在小米发布VLA模型 Xiaomi-Robotics-0 中发帖

[!quote]+ 
我们推出了 Xiaomi-Robotics-0，这是一款先进的视觉-语言-动作（VLA）模型，针对高性能和快速流畅的实时执行进行了优化。我们方法的关键在于精心设计的训练方案和部署策略。Xiaomi-Robotics-0 首先在大量跨实体机器人轨迹和视觉语言数据上进行预训练，使其能够获取广泛且泛化的动作生成知识，同时保持强大的视觉语言能力。在训练后和部署过程中，我们采用异步执行技术来解决推理延迟问题，确保连续无缝的实时部署。 
Xiaomi-Robotics-0 在三个仿真基准测试中均取得了最先进的性能。具体而言，它在 LIBERO 上的平均成功率达到了 98.7%。在 SimplerEnv 上，它在视觉匹配 (85.5%)、视觉聚合 (74.7%) 和 WidowX (79.2%) 任务中均表现出色。在 CALVIN 上，它在 ABC-D 和 ABCD-D 划分...