fromxiaobai (@1263403710) 在讨论一个问题，大模型生图和生图模型的区别中发帖RT，最近的GPT4o生图可谓是风头一时无两，以绝佳的指令遵从，完美的避免了扩散模型生图的抽卡问题，遂有点好奇4o生图的原理

fromxiaobai (@1263403710) 在讨论一个问题，大模型生图和生图模型的区别中发帖

RT，最近的GPT4o生图可谓是风头一时无两，以绝佳的指令遵从，完美的避免了扩散模型生图的抽卡问题，遂有点好奇4o生图的原理。 
首先科普一下传统生图模型stable diffusion flux等模型的生图原理，基本都是一样的步骤，只是在过程中有不同优化，基本可以分为： 
用户输入prompt ——》 像素空间——〉encoder ——〉高斯模糊+神经网络迭代处理——》decoder——〉像素空间——》出图。 
以上是普通文生图的基本流程，至于类似lora等的微调手段，可以简单理解为在其中的某一个步骤加上一定的约束条件，以提高指令遵从的特性。但是由于模型获取到的隐空间和像素空间的相关性，对人类来说不可见，所以就会出现抽卡的现象，比如你要一只猫，它返回给你一只狗，对你来说，这当然是不准确，但对于模型来说，这已经是它通过神经网络迭代出来的最优相关解。目前对于传统模型最好的微调方法就是训练lo...