Bunn (@BunnHack) 在 OpenAI企鹅家族”深夜泄露:代号“皇帝”的新模型,思考延时为0! 中发帖
12月4日凌晨,GitHub 与 DesignArena 同步流出 OpenAI 内部代号“企鹅”(Penguin)的全新模型矩阵,四档推理预算首次曝光:旗舰 Emperor512、中端 Rockhopper64、轻量 Macaroni16与零推理 Mumble0,覆盖从云端到边缘的全场景需求 。
内部文件显示,Emperor 拥有512单位“juice”推理预算,为现行模型8-10倍,端到端延迟却控制在80ms 以内,实现“零等待”对话体验;代码路径已嵌入实时剪枝与动态计算分配,疑似为明年 GPT-5.2提供底层架构 。
四档预算=四种 latency:Macaroni 主打极速,Mumble 彻底去推理
Rockhopper(64)(中端)定位“推理+速度”平衡,目标替代 GPT-4.5
Macaroni(16)面向移动端,首次在8Gen3芯片跑通70B 模型
M...