sd d 在 sensenova / SenseNova-MARS-32B 开源商汤也来凑热闹，都消失好久了

sd d 在 sensenova / SenseNova-MARS-32B 开源商汤也来凑热闹，都消失好久了。中发帖

虽然视觉语言模型（VLM）可以通过智能推理解决复杂任务，但其能力主要受限于文本导向的思维链或孤立的工具调用。他们失败了 展现出将动态工具作与 持续推理，尤其是在知识密集且视觉复杂且需要的场景中 协调外部工具，如搜索和图像裁剪。在本研究中，我们介绍了SenseNova-MARS技术， 一种新型多模态智能推理与搜索框架，赋予VLM交错 通过强化学习（RL）实现视觉推理和工具使用能力。具体来说，是SenseNova-MARS的 动态集成图像搜索、文本搜索和图像裁剪工具，以解决细粒度和 知识密集型的视觉理解挑战。在强化学习阶段，我们提出批量归一化 组序列策略优化（BN-GSPO）算法，旨在提升训练稳定性并推动进步 模型有效调用工具和推理的能力。全面评估能动VLMs 在复杂的视觉任务中，我们引入了HR-MMSearch基准测试，这是首个面向搜索的基准测试 由高分辨率图像组成，问题需大量且以搜索为驱动...