成浩 (@1304058312) 在请教：Qwen3.5 27B的MTP加速问题中发帖各位佬，小弟需要一个问题，看大家都在用MTP给大模型加速，速度几乎都提升了一倍

成浩 (@1304058312) 在请教：Qwen3.5 27B的MTP加速问题中发帖

各位佬，小弟需要一个问题，看大家都在用MTP给大模型加速，速度几乎都提升了一倍。于是我也试了试，我的环境是A100，vllm0.16.x，Qwen3.5 27B稠密模型，上下文开到256k。 mtp参数如下：–speculative-config ‘{“method”: “mtp”, “num_speculative_tokens”: 2}’ 
启动日志中显示已经使用了MTP，但是速度和没开之前是一样的，毫无提升，都是25-27token每秒。希望各位指点一二，万分感谢！ 
 [5b44bfad40e575ffd683ba861b38e32f]