@fengchrisMiniCPM-o 4.5发布:端侧视觉、语音、全双工多模态实时流式大模型 中发帖

MiniCPM-o 4.5: 总参数量 9B,在视觉、语音及全双工多模态实时流式交互方面的表现接近 Gemini 2.5 Flash,是目前开源社区中功能最全面、性能最强的模型之一。全新的全双工多模态实时流能力意味着输出流(语音和文本)与实时输入流(视频和音频)互不阻塞。这使得 MiniCPM-o 4.5 能够在实时全模态对话中实现“边看、边听、边说”,并能进行如“主动提醒”等主动交互。优化后的语音模式支持更自然、更具表现力且更稳定的中英双语实时交互,并支持声音克隆。此外,它还进一步增强了 MiniCPM-V 原有的视觉能力,包括出色的 OCR 能力、低幻觉率、以及多语言支持等。为了让这种全双工多模态实时流体验在 PC 等端侧设备上普及,我们还同步推出了高性能的 llama.cpp-omni 推理框架以及 WebRTC Demo。 
[image]

[image]
[image] ...