xy3 在 Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现 中发帖
模型来源
RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face
Qwen3.6-35B-A3B速度
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TT...