成浩 (@1304058312)请教:Qwen3.5 27B的MTP加速问题 中发帖

各位佬,小弟需要一个问题,看大家都在用MTP给大模型加速,速度几乎都提升了一倍。于是我也试了试,我的环境是A100,vllm0.16.x,Qwen3.5 27B稠密模型,上下文开到256k。 mtp参数如下:–speculative-config ‘{“method”: “mtp”, “num_speculative_tokens”: 2}’ 
启动日志中显示已经使用了MTP,但是速度和没开之前是一样的,毫无提升,都是25-27token每秒。希望各位指点一二,万分感谢!
[5b44bfad40e575ffd683ba861b38e32f]