Bunn (@BunnHack) 在 TNR发布DeepSeek-TNG-R1T2-Chimera 比 R1-0528 快 200%，比 R1 快 20% 中发帖[intelligence_score_vs_output_tokens] 专家组奇美拉模型由 DeepSeek R1-0528、R1 和 V3-0324 父模型构建而成

Bunn (@BunnHack) 在 TNR发布DeepSeek-TNG-R1T2-Chimera 比 R1-0528 快 200%，比 R1 快 20% 中发帖

[intelligence_score_vs_output_tokens] 
专家组奇美拉模型由 DeepSeek R1-0528、R1 和 V3-0324 父模型构建而成。 
TNG Technology Consulting 推出了 DeepSeek-TNG R1T2 Chimera，这是一种新的专家组装（Assembly-of-Experts, AoE）模型，通过创新的模型融合策略结合了智能和速度。R1T2 基于三个高性能的父模型——R1-0528、R1 和 V3-0324——展示了大规模多专家混合（Mixture-of-Experts, MoE）模型在权重张量层面合并可以带来的新效率。 
传统的大型语言模型（LLM）训练和微调需要大量的计算资源。TNG 通过其 AoE 方法解决了这一问题，这种策略可以在不重新训练的情况下，在权重张量层面合并大规模的 MoE 模型，实现线性时间构造...