@HCPTangHY 在 智谱发布图像生成模型GLM-Image:自回归与扩散架构的深度融合 中发帖
智谱正式推出首个开源、工业级离散自回归图像生成模型 GLM-Image。该模型通过创新的混合架构,将强大的语义理解能力与高保真的视觉表现力完美结合,标志着图像生成技术进入了“高精度语义对齐”的新阶段。
GLM-Image 核心采用了“自回归+扩散解码”的双重模块设计。其自回归部分基于 90 亿参数的 GLM-4 模型,负责处理复杂的语义信息和逻辑布局,确保模型能精准理解如“文字排版、知识密集型场景”等高难度指令;而 70 亿参数的扩散解码器则专注于高频细节的还原,保障了工业级的图像画质。这种“双剑合璧”的架构,有效解决了传统扩散模型在复杂指令遵循和语义对齐上的短板。
在技术实现上,GLM-Image 摒弃了传统的视觉编码方式,采用 Semantic-VQ 策略,使视觉信号与语义逻辑的关联度更高,大幅提升了模型的收敛速度与生成质量。此外,模型引入了渐进式生成策略与解耦的强化学习(GRPO...