kejun (@ke_jun) 在 250409 三花AI日报:ElevenLabs 发布 MCP 服务器;TTT AI 生成猫和老鼠长视频;MiniMax 发布 Speech-02;HiDream-I1 比肩 Flux dev 生图模型;Gemini Live:AI 视频交互 中发帖
ElevenLabs 发布音频处理 MCP 服务器
ElevenLabs 官方正式推出 MCP 服务器,为用户提供强大的云端音频处理能力。允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。
蛮酷的,佬们可以看看官方仓库学一下音频类 MCP 怎么做。
Test-Time Training AI 长视频生成技术
Test-Time Training (TTT) 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。
研究团队以经典动画《猫和老鼠》为测试案例,对比了 Mamba 2、Gated DeltaNet 等多种基线模型,最终能够生成流畅一致的1分钟动画视频!
目前生成视频仍有瑕疵(可能受限于5B参数)不过AI长视频未来可期。
演示视频是完全由 AI 生成的,一刀未剪,已经非常的强了。
MiniMax Audio 发布 Speech...