@fengchris 在字节开源多模态7B模型BAGEL 中发帖集视觉理解、文生图、图像编辑为一体的模型，跟Janus-Pro-7B类似

@fengchris 在字节开源多模态7B模型BAGEL 中发帖

集视觉理解、文生图、图像编辑为一体的模型，跟Janus-Pro-7B类似。 

在标准的多模态理解排行榜上，BAGEL的表现优于现有的顶级开源视觉语言模型（VLM），如Qwen2.5-VL和InternVL-2.5，并且在文本生成图像的质量上也能与强大的专用生成器（如SD3）一较高下。此外，BAGEL在经典的图像编辑场景中展示了比现有开源模型更卓越的定性结果。更重要的是，BAGEL扩展了自由视觉操作、多视图合成和世界导航等能力，具备了超越以往图像编辑模型的“世界建模”任务能力。 

 [image] 
仓库地址：GitHub - ByteDance-Seed/Bagel 
模型地址：ByteDance-Seed/BAGEL-7B-MoT · Hugging Face