sd d 在 sensenova / SenseNova-MARS-32B 开源 商汤也来凑热闹,都消失好久了。 中发帖
虽然视觉语言模型(VLM)可以通过智能推理解决复杂任务,但其能力主要受限于文本导向的思维链或孤立的工具调用。他们失败了 展现出将动态工具作与 持续推理,尤其是在知识密集且视觉复杂且需要的场景中 协调外部工具,如搜索和图像裁剪。在本研究中,我们介绍了SenseNova-MARS技术, 一种新型多模态智能推理与搜索框架,赋予VLM交错 通过强化学习(RL)实现视觉推理和工具使用能力。具体来说,是SenseNova-MARS的 动态集成图像搜索、文本搜索和图像裁剪工具,以解决细粒度和 知识密集型的视觉理解挑战。在强化学习阶段,我们提出批量归一化 组序列策略优化(BN-GSPO)算法,旨在提升训练稳定性并推动进步 模型有效调用工具和推理的能力。全面评估能动VLMs 在复杂的视觉任务中,我们引入了HR-MMSearch基准测试,这是首个面向搜索的基准测试 由高分辨率图像组成,问题需大量且以搜索为驱动...