@HCPTangHY 在 Hugging Face transformers合并GLM 5，参数估算中发帖Hugging Face transformers于2026年2月8日通过了编号为43858的拉取请求，完成了对新架构GlmMoeDsa的合入

@HCPTangHY 在 Hugging Face transformers合并GLM 5，参数估算中发帖

Hugging Face transformers于2026年2月8日通过了编号为43858的拉取请求，完成了对新架构GlmMoeDsa的合入。Add GlmMoeDsa by Cyrilvallez · Pull Request #43858 · huggingface/transformers · GitHub 
从代码实现来看，GLM-5采用了78层Transformer解码器结构。在计算模式上，它延续了智谱AI近期的混合设计思路：前三层保持为稠密（Dense）层，从第四层开始全面转为稀疏（Sparse）的混合专家架构（MoE）。模型配置了256个专家，单token激活8个专家的策略，这种设计能够在维持庞大参数量的同时，通过计算资源的按需分配来兼顾推理响应速度。 
专家总数：256 
共享专家：1个 
每个token激活8个专家 
专家维度：2048 
上下文能力：202K 
词...