ZTurboX 在 Qwen3.5-27B部署 中发帖
Qwen3.5-27B使用vllm部署,官方文档和vllm文档中命令好像不太一样,该如何使用命令启动服务,使模型具备较高的吞吐量和低延迟
官方文档:
python -m sglang.launch_server --model-path Qwen/Qwen3.5-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder
vllm文档:
vllm serve Qwen/Qwen3.5-397B-A17B-FP8 \
-dp 8 \
--enable-expert-parallel \
--mm-encoder-tp-mode data \
--mm-pr...