章北海 (@alertsc)微软新的Phi-4-multimodal感觉不错 中发帖

如果大小适合本地部署感觉比DeepSeek-R1的各种蒸馏模型都要实用,可惜ollama上还没看到。 
2024 年 12 月,微软推出了 Phi-4,它是一种小型语言模型 (SLM),在同类产品中具有最先进的性能。 今天,微软将通过两个新模型扩展 Phi-4 系列: Phi-4-multimodal和Phi-4-mini。新的 Phi-4 多模态模型可同时支持语音、视觉和文本,而 Phi-4-mini 则专注于基于文本的任务。
Phi-4-multimodal是一个5.6B参数模型,也是微软首个多模态语言模型,它将语音、视觉和文本处理集成到一个统一的架构中。 如下表所示,与Google的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite 等其他现有最先进的全方位模型相比,Phi-4-multimodal 在多个基准测试中取得了更好的性能。
在语音相关任...