QWQ (@exciting) 在 JetBrains自研大模型Mellum2正式开源中发帖Mellum2是一个120亿参数的模型，专为解决生产AI中的延迟、吞吐量和成本这三大最棘手的挑战而设计，架构与性能如下：混合专家 (MoE) 设计：模型共有 120 亿参数，但由于其采用 MoE 设计，每个 token 仅有 25 亿参数处于激活状态

QWQ (@exciting) 在 JetBrains自研大模型Mellum2正式开源中发帖

Mellum2是一个120亿参数的模型，专为解决生产AI中的延迟、吞吐量和成本这三大最棘手的挑战而设计，架构与性能如下： 

混合专家 (MoE) 设计： 模型共有 120 亿参数，但由于其采用 MoE 设计，每个 token 仅有 25 亿参数处于激活状态。此设计在降低计算成本的同时，可以对实时工作负载进行高吞吐量、低延迟推理。
专属侧重点：与很多现代模型不同，Mellum2 并非多模态模型， 它专门针对自然语言与代码数据进行训练。这种专门化可以确保模型在软件工程环境中表现出色，同时保持轻量和高速。

 [image] 
在技术报告中，详细介绍了模型在代码生成、科学、数学和推理基准测试中的表现。Mellum2 在与同规模模型的竞争中不落下风，同时将推理时间缩短至不到一半，这对生产级部署来说是一项决定性优势。 
 [image] 
Mellum2 的主要使用场景： 

路由和编排 AI 工...