fromxiaobai (@1263403710) 在 讨论一个问题,大模型生图和生图模型的区别 中发帖
RT,最近的GPT4o生图可谓是风头一时无两,以绝佳的指令遵从,完美的避免了扩散模型生图的抽卡问题,遂有点好奇4o生图的原理。
首先科普一下传统生图模型stable diffusion flux等模型的生图原理,基本都是一样的步骤,只是在过程中有不同优化,基本可以分为:
用户输入prompt ——》 像素空间——〉encoder ——〉高斯模糊+神经网络迭代处理——》decoder——〉像素空间——》出图。
以上是普通文生图的基本流程,至于类似lora等的微调手段,可以简单理解为在其中的某一个步骤加上一定的约束条件,以提高指令遵从的特性。但是由于模型获取到的隐空间和像素空间的相关性,对人类来说不可见,所以就会出现抽卡的现象,比如你要一只猫,它返回给你一只狗,对你来说,这当然是不准确,但对于模型来说,这已经是它通过神经网络迭代出来的最优相关解。目前对于传统模型最好的微调方法就是训练lo...