@HCPTangHY 在智谱发布图像生成模型GLM-Image：自回归与扩散架构的深度融合中发帖智谱正式推出首个开源、工业级离散自回归图像生成模型 GLM-Image

@HCPTangHY 在智谱发布图像生成模型GLM-Image：自回归与扩散架构的深度融合中发帖

智谱正式推出首个开源、工业级离散自回归图像生成模型 GLM-Image。该模型通过创新的混合架构，将强大的语义理解能力与高保真的视觉表现力完美结合，标志着图像生成技术进入了“高精度语义对齐”的新阶段。 
GLM-Image 核心采用了“自回归+扩散解码”的双重模块设计。其自回归部分基于 90 亿参数的 GLM-4 模型，负责处理复杂的语义信息和逻辑布局，确保模型能精准理解如“文字排版、知识密集型场景”等高难度指令；而 70 亿参数的扩散解码器则专注于高频细节的还原，保障了工业级的图像画质。这种“双剑合璧”的架构，有效解决了传统扩散模型在复杂指令遵循和语义对齐上的短板。 
在技术实现上，GLM-Image 摒弃了传统的视觉编码方式，采用 Semantic-VQ 策略，使视觉信号与语义逻辑的关联度更高，大幅提升了模型的收敛速度与生成质量。此外，模型引入了渐进式生成策略与解耦的强化学习（GRPO...