kejun (@ke_jun)250716 三花AI日报:Voxtral:多语言语音转录模型;谷歌 Gemini 嵌入模型 API 全面开放;PUSA V1.0:低成本高性能视频生成模型;OpenArt Story 一键生成完整叙事短视频 中发帖

Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3
[图片]
Voxtral 是 Mistral AI 最新开源的多语言语音转录模型,提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化,而轻量级的 3B 版本则非常适合本地和端侧设备部署。
根据其官方基准测试,其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。
完整的技术细节和性能对比可查阅官方博客。
谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元
[图片]
谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力,每 100 万输入 token 仅需 0.15 美元,这个定价可...