kejun (@ke_jun) 在 250526 三花AI日报:MMaDA 多模态扩散模型;Visual Planning 纯视觉推理模型;Cua 基于 Docker 容器 Computer-Use Agents;还有更多... 中发帖
MMaDA 多模态扩散模型实现文本推理+视觉理解+文生图
[图片]
MMaDA 是一款开源的多模态扩散模型,同时具有文字推理、图片理解、文字生成图片的能力。
感兴趣的佬们可以通过官方的在线演示体验。
Visual Planning:突破文本依赖的纯视觉推理模型
[图片]
传统多模态大模型本质是视觉输入然后使用文本推理,而 Visual Planning 直接通过图像序列进行推理,不依赖于文本。
该方法实现了真正的纯视觉推理范式,目前相关论文已正式发布(但代码尚未开源)。
Cua:基于 Docker 容器的高性能 Computer-Use Agents
Cua 是一个开源项目,基于 Docker 容器技术构建的 AI 代理框架。它允许 AI 代理在隔离的 Docker 容器环境中运行,可以与 OpenAI、Anthropic 等主流大语言模型无缝配合使用。
非常看好 ...