@user1937 在关于vLLM部署qwen3.6-27B的推理加速优化问题中发帖想请教一下各位佬友

@user1937 在关于vLLM部署qwen3.6-27B的推理加速优化问题中发帖

想请教一下各位佬友。 
我在一台单卡RTX PRO 6000（96G）的服务器上部署Qwen3.6-27B-FP8。 
在保50个并发并且开启工具调用和MTP的情况下，希望context可以越大越好。 
这种如果要优化的话，我应该往什么方向去优化呀