Bunn (@BunnHack) 在 Trinity Large:基于Nvidia B300 GPU打造的 400B 稀疏 MoE,声称超越 GLM 4.5 和 MiniMax M2.1 中发帖
Trinity 团队今日正式宣布推出其旗舰级模型——Trinity Large。
继两个月前发布 Nano 和 Mini 版本后,Trinity 团队决定“不再将预训练视为别人的工作”,在 2,048 张 Nvidia B300 GPU 上完成了这次被描述为“要么大获全胜,要么血本无归”的训练任务。
此次发布最引人注目的是,团队一次性放出了三个不同的检查点版本:Preview(预览版)、Base(基础版) 和 TrueBase(纯净基础版),分别针对应用、微调和深度研究需求。
Trinity Large 是一个拥有 4000 亿(400B)参数的稀疏混合专家(MoE)模型。
尽管总参数量巨大,但每个 token 仅激活 130 亿(13B)参数。
模型包含 256 个专家,每个 token 仅选择前 4 个专家(4-of-256)。这意味着其路由激活比例仅为 1.56%。
相比...