宇宙绵羊 (@techtech) 在速报:MiniMax M1发布，1M上下文，459B的开源深度思考大模型中发帖之前一直传闻Minimax正在憋大招，现在，这个“大招”终于来了

宇宙绵羊 (@techtech) 在速报:MiniMax M1发布，1M上下文，459B的开源深度思考大模型中发帖

之前一直传闻Minimax正在憋大招，现在，这个“大招”终于来了。 
以下是官方介绍:MiniMax-M1是全球首款开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家模型 (MoE) 架构，并结合了闪电注意力机制。该模型基于之前的 MiniMax-Text-01 模型开发，总共包含 4560 亿参数，每个词元 (token) 激活 459 亿参数，和 MiniMax-Text-01 一致。 
M1 模型原生支持 100 万词元的上下文长度，是 DeepSeek R1 上下文大小的 8 倍。此外，MiniMax-M1 中的闪电注意力机制能够高效扩展测试时的计算。例如，与 DeepSeek R1 相比，在生成长度为 10 万词元时，M1 消耗的浮点运算次数 (FLOPs) 仅为其 25%。这些特性使 M1 特别适用于需要处理长输入并进行深度思考的复杂任务。 
官方选了一些比...