@fengchris 在 字节开源多模态7B模型BAGEL 中发帖
集视觉理解、文生图、图像编辑为一体的模型,跟Janus-Pro-7B类似。
在标准的多模态理解排行榜上,BAGEL的表现优于现有的顶级开源视觉语言模型(VLM),如Qwen2.5-VL和InternVL-2.5,并且在文本生成图像的质量上也能与强大的专用生成器(如SD3)一较高下。此外,BAGEL在经典的图像编辑场景中展示了比现有开源模型更卓越的定性结果。更重要的是,BAGEL扩展了自由视觉操作、多视图合成和世界导航等能力,具备了超越以往图像编辑模型的“世界建模”任务能力。
[image]
仓库地址:GitHub - ByteDance-Seed/Bagel
模型地址:ByteDance-Seed/BAGEL-7B-MoT · Hugging Face