@fengchris 在 MiniCPM-o 4.5发布：端侧视觉、语音、全双工多模态实时流式大模型中发帖MiniCPM-o 4.5: 总参数量 9B，在视觉、语音及全双工多模态实时流式交互方面的表现接近 Gemini 2.5 Flash，是目前开源社区中功能最全面、性能最强的模型之一

@fengchris 在 MiniCPM-o 4.5发布：端侧视觉、语音、全双工多模态实时流式大模型中发帖

MiniCPM-o 4.5: 总参数量 9B，在视觉、语音及全双工多模态实时流式交互方面的表现接近 Gemini 2.5 Flash，是目前开源社区中功能最全面、性能最强的模型之一。全新的全双工多模态实时流能力意味着输出流（语音和文本）与实时输入流（视频和音频）互不阻塞。这使得 MiniCPM-o 4.5 能够在实时全模态对话中实现“边看、边听、边说”，并能进行如“主动提醒”等主动交互。优化后的语音模式支持更自然、更具表现力且更稳定的中英双语实时交互，并支持声音克隆。此外，它还进一步增强了 MiniCPM-V 原有的视觉能力，包括出色的 OCR 能力、低幻觉率、以及多语言支持等。为了让这种全双工多模态实时流体验在 PC 等端侧设备上普及，我们还同步推出了高性能的 llama.cpp-omni 推理框架以及 WebRTC Demo。 
[image]

 [image] 
 [image] ...