@user1937 在 关于vLLM部署qwen3.6-27B的推理加速优化问题 中发帖
想请教一下各位佬友。
我在一台单卡RTX PRO 6000(96G)的服务器上部署Qwen3.6-27B-FP8。
在保50个并发并且开启工具调用和MTP的情况下,希望context可以越大越好。
这种如果要优化的话,我应该往什么方向去优化呀