Twilight (@Twilight9) 在北大发布多模态版o1：首个慢思考VLM 中发帖北大等机构发布了名为 LLaVA-o1 的多模态模型，该模型基于 Llama-3.2-Vision，是首个实现自主“慢思考”推理的视觉语言模型 (VLM)

Twilight (@Twilight9) 在北大发布多模态版o1：首个慢思考VLM 中发帖

北大等机构发布了名为 LLaVA-o1 的多模态模型，该模型基于 Llama-3.2-Vision，是首个实现自主“慢思考”推理的视觉语言模型 (VLM)。LLaVA-o1 采用结构化、多步骤推理方式，将推理过程分为总结、视觉解释、逻辑推理和结论生成四个阶段，并利用阶段级光束搜索方法提升性能。在多模态推理基准测试中，LLaVA-o1 表现优异，超越了其基础模型 8.9%，并在性能上超越了一众开闭源模型，包括 Gemini-1.5-pro 和 GPT-4o-mini。该模型的代码、预训练权重和数据集即将开源。北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭源 
 [image]