火星文专家 (@uoqocjx) 在 有用vllm本地部署Qwen3.5-27b-FP8的佬友吗 中发帖
我4张RTX3090通过pcie张量并发部署,为啥每秒才吐6个token。之前部署Qwen3-32B可以每秒吐上百token的,这次qwen3.5有哪些结构性变化吗
我4张RTX3090通过pcie张量并发部署,为啥每秒才吐6个token。之前部署Qwen3-32B可以每秒吐上百token的,这次qwen3.5有哪些结构性变化吗