Twilight (@Twilight9) 在 北大发布多模态版o1:首个慢思考VLM 中发帖
北大等机构发布了名为 LLaVA-o1 的多模态模型,该模型基于 Llama-3.2-Vision,是首个实现自主“慢思考”推理的视觉语言模型 (VLM)。LLaVA-o1 采用结构化、多步骤推理方式,将推理过程分为总结、视觉解释、逻辑推理和结论生成四个阶段,并利用阶段级光束搜索方法提升性能。在多模态推理基准测试中,LLaVA-o1 表现优异,超越了其基础模型 8.9%,并在性能上超越了一众开闭源模型,包括 Gemini-1.5-pro 和 GPT-4o-mini。该模型的代码、预训练权重和数据集即将开源。北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
[image]