@Astralyn 在 MiniMax M3 开放权重 ~428B~A23B 中发帖MiniMax M3 权重已经上传至 Hugging Face，但是感觉参数量还是不大呀（ MiniMax-M3 是一款原生多模态模型，支持 1M 超长上下文

@Astralyn 在 MiniMax M3 开放权重 ~428B~A23B 中发帖

MiniMax M3 权重已经上传至 Hugging Face，但是感觉参数量还是不大呀（ 


MiniMax-M3 是一款原生多模态模型，支持 1M 超长上下文。其总参数量约为 428B，激活参数量约为 23B。 
核心亮点： 

原生多模态 (Native Multimodality)： M3 从训练伊始即采用混合模态训练，实现了文本、图像与视频之间更深度的语义融合。
稀疏注意力驱动上下文扩展 (Context Scaling via Sparse Attention)： M3 引入 MiniMax 稀疏注意力（MSA）机制以提升长文本处理效率。在 1M 上下文长度下，相比 M2，M3 的预填充（prefill）速度提升 9 倍，解码（decode）速度提升 15 倍，单 token 计算量降至 1/20。
编程与协作能力 (Coding & Cowork Capability)： ...