kejun (@ke_jun) 在 250909 三花AI日报:Qwen3-ASR-Flash:多语言语音识别模型;哔哩哔哩 IndexTTS-2.0:语音合成模型;即梦 4.0 中国版 Nano Banana ;MCP Registry :标准化 MCP 服务器分发与发现 中发帖
Qwen3-ASR-Flash:高精度多语言语音识别模型
[图片]
Qwen3-ASR-Flash 是基于 Qwen3 推出的高精度多语言语音识别模型,支持 11 种语言及其多种口音,具备自动语种检测与非人声过滤功能。
目前该模型暂未开源(有点小遗憾),但已上线阿里云百炼平台 API,佬们也可以在 Hugging Face Space 上在线体验。
哔哩哔哩开源 IndexTTS-2.0:新一代零样本语音合成模型
IndexTTS-2.0 是哔哩哔哩语音团队开源的新一代零样本语音合成模型,基于 55K 小时中英双语语音和 135 小时情感数据训练,实现了对语音时长和情感的精准控制。
目前 SDK 和模型都已开放,有需要的佬可以试试看!
即梦 AI 推出 Seedream 4.0 图像生成模型
[图片]
即梦 AI 平台官网的新一代图像生成模型 Seedream 4.0...