kejun (@ke_jun) 在 250901 三花AI日报:微软 Copilot Labs 音频表达功能;字节风格统一生图模型;腾讯 Hunyuan-MT-7B 翻译大模型;美团 LongCat-Flash Moe 模型;OpenBMB 开源 UltraRAG; 中发帖
微软 Copilot Labs 音频表达功能:AI 语音风格自定义
[图片]
微软在 Copilot Labs 上线了实验性功能「音频表达(Audio Expression)」,用户通过输入提示词,可让 AI 以不同语音风格朗读文本。
目前完全免费,不过仅支持英语,佬们可以试试看。
字节开源 USO 模型:统一风格与主体驱动的生成框架
[图片]
USO 模型是字节开源的一项创新框架,将“风格驱动”与“主体驱动”两类图像生成任务统一整合。该模型基于 FLUX.1-dev 微调,提供了 LoRA 权重与投影模型,支持四种典型推理模式:精准主体控制、灵活风格迁移、IP-风格混合创作以及多风格融合生成。
官方还贴心地提供了在线 demo,佬们可以直接试玩。
腾讯 Hunyuan-MT-7B:开源 38 种语言翻译模型
[图片]
Hunyuan-MT-7B 是腾讯开源的翻译模型系列...