ALEX000Vqwen3似乎比qwen2.5更慢 中发帖

我在相同的硬件环境(2*4090)下部署了Qwen/Qwen2.5-32B-Instruct-AWQ,Qwen/QwQ-32B-AWQ,Qwen/Qwen3-32B-AWQ,swift/Qwen3-30B-A3B-AWQ,在都使用vllm/vllm-openai:v0.8.5.post1镜像,且确保显存充足的情况下,swift/Qwen3-30B-A3B-AWQ和Qwen/Qwen3-32B-AWQ速度几乎相同,且都比Qwen/Qwen2.5-32B-Instruct-AWQ和Qwen/QwQ-32B-AWQ更慢,Qwen/Qwen3-32B-AWQ比Qwen/Qwen2.5-32B-Instruct-AWQ大约慢了17%,不知道这是不是正常的,想咨询一下有没有别的佬友遇到该问题