@Astralyn 在 MiniMax M3 开放权重 ~428B~A23B 中发帖
MiniMax M3 权重已经上传至 Hugging Face,但是感觉参数量还是不大呀(
MiniMax-M3 是一款原生多模态模型,支持 1M 超长上下文。其总参数量约为 428B,激活参数量约为 23B。
核心亮点:
原生多模态 (Native Multimodality): M3 从训练伊始即采用混合模态训练,实现了文本、图像与视频之间更深度的语义融合。
稀疏注意力驱动上下文扩展 (Context Scaling via Sparse Attention): M3 引入 MiniMax 稀疏注意力(MSA)机制以提升长文本处理效率。在 1M 上下文长度下,相比 M2,M3 的预填充(prefill)速度提升 9 倍,解码(decode)速度提升 15 倍,单 token 计算量降至 1/20。
编程与协作能力 (Coding & Cowork Capability): ...