kejun (@ke_jun)250212 三花AI日报:阿里开源 InspireMusic:专为音乐生成设计的 AIGC 工具包;FlashVideo:双阶段视频生成框架,快速预览与高清增强;小红书开源 FireRedASR:支持普通话、方言和英文的语音识别模型;Hugging Face 推出 AI Agent 构建教程:从入门到认证;苹果放弃 DeepSeek,联手阿里巴巴合作 iPhone AI 功能 中发帖

阿里开源 InspireMusic:专为音乐生成设计的 AIGC 工具包
[图片]
InspireMusic 是阿里专为音乐、歌曲和音频生成而设计的 AIGC 工具包。
它支持通过文字描述和音乐特征精确控制生成的音乐风格和结构,并支持生成音乐、歌曲及其他音频内容。
目前模型已经开源,佬友们可以在线使用感受下,不过目前仅支持纯音乐生成,无法像 Suno 那样生成带人声的歌曲。
FlashVideo:双阶段视频生成框架,快速预览与高清增强
[图片]
FlashVideo 是一个创新的双阶段视频生成框架,它将视频生成过程分为预览阶段和质量增强阶段。
在预览阶段,用户可以以极低的成本和极快的速度预览视频,这大大减少了等待时间并显著提升了商业应用的可行性。这一阶段类似于前端优化的 LQIP(Low Quality Image Placeholders),为用户提供了快速反馈的机制。
...