@md5 在 🌟MiMo-V2-Flash-0204 中发帖
小米更新模型啦~
• Thinking 模式代码能力升级:针对编程场景进行了专门优化,Thinking 模式在 SWE-Bench Verified 上的评分提升至78.6,代码生成的解决率和质量均有显著提高。
• 工具调用准确率大幅提升:解决了工具使用的稳定性问题,Thinking 模式下的工具调用准确率从 64% 跃升至97.0%,大幅增强了模型在 Agent 场景下的执行可靠性。
• 指令遵循与抗幻觉能力增强:
1.提升了对特定指令的遵循能力,AA-IFBench 评分达到72。
2.增强了事实性回答的严谨度,非幻觉率(Non-Hallucination Rate)提升至52%。
• 复杂任务处理优化:在 Thinking 模式下,针对 Arena-Hard (HardPrompt) 的处理能力有所增强,评分提升至60.6,在处理高难度逻辑问题时表现更佳。
• 思维链长...