zeke (@zekeChin) 在 gpt4o 网络逆向工程的发现与启示 中发帖
原帖https://www.reddit.com/r/LocalLLaMA/comments/1jlptqu/reverse_engineering_gpt4o_image_gen_via_network/
推测:GPT-4o的图像生成很可能不是其核心Transformer模型直接完成的,而是通过一个独立的生成模型(可能是DALL-E的变种或新设计的扩散模型)实现的。
支撑点:
单独的websocket链接
url分离
图片先模糊再清晰 和 耗时 符合类Stable Diffusion的扩散模型特点
json数据中 有task_id