@HCPTangHY 在 GLM-5或将全面对齐DeepSeek:vLLM出现新PR 中发帖
vLLM出现一项新PR #34124。关键信息显示,代码中明确出现了GLM-5,并将其逻辑实现直接指向了DeepSeek-V3系列所采用的DSA Deepseek稀疏注意力机制。
[image]
[image]
[image]
GLM-5完全复用DeepseekV3和V3.2的架构,使用deepseek mtp (Multi-Token Prediction,多标记预测)