QWQ (@exciting)JetBrains自研大模型Mellum2正式开源 中发帖

Mellum2是一个120亿参数的模型,专为解决生产AI中的延迟、吞吐量和成本这三大最棘手的挑战而设计,架构与性能如下: 

混合专家 (MoE) 设计: 模型共有 120 亿参数,但由于其采用 MoE 设计,每个 token 仅有 25 亿参数处于激活状态。此设计在降低计算成本的同时,可以对实时工作负载进行高吞吐量、低延迟推理。
专属侧重点:与很多现代模型不同,Mellum2 并非多模态模型, 它专门针对自然语言与代码数据进行训练。这种专门化可以确保模型在软件工程环境中表现出色,同时保持轻量和高速。

[image]
在技术报告中,详细介绍了模型在代码生成、科学、数学和推理基准测试中的表现。Mellum2 在与同规模模型的竞争中不落下风,同时将推理时间缩短至不到一半,这对生产级部署来说是一项决定性优势。
[image]
Mellum2 的主要使用场景:

路由和编排 AI 工...