kejun (@ke_jun) 在 250526 三花AI日报：MMaDA 多模态扩散模型；Visual Planning 纯视觉推理模型；Cua 基于 Docker 容器 Computer-Use Agents；还有更多... 中发帖MMaDA 多模态扩散模型实现文本推理+视觉理解+文生图 [图片] MMaDA 是一款开源的多模态扩散模型，同时具有文字推理、图片理解、文字生成图片的能力

kejun (@ke_jun) 在 250526 三花AI日报：MMaDA 多模态扩散模型；Visual Planning 纯视觉推理模型；Cua 基于 Docker 容器 Computer-Use Agents；还有更多... 中发帖

MMaDA 多模态扩散模型实现文本推理+视觉理解+文生图
 [图片] 
MMaDA 是一款开源的多模态扩散模型，同时具有文字推理、图片理解、文字生成图片的能力。 
感兴趣的佬们可以通过官方的在线演示体验。 
Visual Planning：突破文本依赖的纯视觉推理模型
 [图片] 
传统多模态大模型本质是视觉输入然后使用文本推理，而 Visual Planning 直接通过图像序列进行推理，不依赖于文本。 
该方法实现了真正的纯视觉推理范式，目前相关论文已正式发布（但代码尚未开源）。 
Cua：基于 Docker 容器的高性能 Computer-Use Agents

Cua 是一个开源项目，基于 Docker 容器技术构建的 AI 代理框架。它允许 AI 代理在隔离的 Docker 容器环境中运行，可以与 OpenAI、Anthropic 等主流大语言模型无缝配合使用。 
非常看好 ...