arch 在 超强多模态MiniCPM-o 4.5 开源了 中发帖
超强多模态MiniCPM-o 4.5 开源了,这次是个真·全能小钢炮。
核心亮点是 9B 参数 就能在OpenCompass上跑出 77.6 的分,视觉能力号称硬刚 GPT-4o 和 Gemini 2.0 Pro。
传统的语音助手大多是轮询式,这个模型实现了听觉、视觉、语音的并行流式处理。也就是说,它可以在你说话的同时进行“思考”和“观察”,互不阻塞,体验接近 GPT-4o 的实时语音模式。
这种体量能做到全双工+多模态,本地 Agent 玩出花来了。
最重要的是支持 PC 本地部署。这意味着你可以在自己电脑上跑一个支持全双工的实时助手:
边看边听边说:真正的实时流式交互,不用像对讲机那样“讲完-等待-回答”。
主动交互:模型不再是被动问答,能主动发起提醒
可以根据视觉输入主动打断或提醒用户,而不只是被动 Response。
9B 参数量,本地可跑,门槛很低。
[ima...