宇宙绵羊 (@techtech)速报:MiniMax M1发布,1M上下文,459B的开源深度思考大模型 中发帖

之前一直传闻Minimax正在憋大招,现在,这个“大招”终于来了。 
以下是官方介绍:MiniMax-M1是全球首款开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家模型 (MoE) 架构,并结合了闪电注意力机制。该模型基于之前的 MiniMax-Text-01 模型开发,总共包含 4560 亿参数,每个词元 (token) 激活 459 亿参数,和 MiniMax-Text-01 一致。
M1 模型原生支持 100 万词元的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制能够高效扩展测试时的计算。例如,与 DeepSeek R1 相比,在生成长度为 10 万词元时,M1 消耗的浮点运算次数 (FLOPs) 仅为其 25%。这些特性使 M1 特别适用于需要处理长输入并进行深度思考的复杂任务。
官方选了一些比...