Bunn (@BunnHack)TNR发布DeepSeek-TNG-R1T2-Chimera 比 R1-0528 快 200%,比 R1 快 20% 中发帖

[intelligence_score_vs_output_tokens] 
专家组奇美拉模型由 DeepSeek R1-0528、R1 和 V3-0324 父模型构建而成。
TNG Technology Consulting 推出了 DeepSeek-TNG R1T2 Chimera,这是一种新的专家组装(Assembly-of-Experts, AoE)模型,通过创新的模型融合策略结合了智能和速度。R1T2 基于三个高性能的父模型——R1-0528、R1 和 V3-0324——展示了大规模多专家混合(Mixture-of-Experts, MoE)模型在权重张量层面合并可以带来的新效率。
传统的大型语言模型(LLM)训练和微调需要大量的计算资源。TNG 通过其 AoE 方法解决了这一问题,这种策略可以在不重新训练的情况下,在权重张量层面合并大规模的 MoE 模型,实现线性时间构造...