@HCPTangHY 在 Hugging Face transformers合并GLM 5,参数估算 中发帖
Hugging Face transformers于2026年2月8日通过了编号为43858的拉取请求,完成了对新架构GlmMoeDsa的合入。Add GlmMoeDsa by Cyrilvallez · Pull Request #43858 · huggingface/transformers · GitHub
从代码实现来看,GLM-5采用了78层Transformer解码器结构。在计算模式上,它延续了智谱AI近期的混合设计思路:前三层保持为稠密(Dense)层,从第四层开始全面转为稀疏(Sparse)的混合专家架构(MoE)。模型配置了256个专家,单token激活8个专家的策略,这种设计能够在维持庞大参数量的同时,通过计算资源的按需分配来兼顾推理响应速度。
专家总数:256
共享专家:1个
每个token激活8个专家
专家维度:2048
上下文能力:202K
词...