MKY (@menkeyi)大模型推理压测大家如何做? 中发帖

4块A100-80G 
不知道自己测试对不对,sglang并发并没有vllm高
压力测试命令
python token_benchmark_ray.py --model “DeepSeek-R1-Distill-Qwen-32B” --mean-input-tokens 100 --stddev-input-tokens 50 --mean-output-tokens 500 --stddev-output-tokens 100 --max-num-completed-requests 128 --timeout 600 --num-concurrent-requests 1 --results-dir “result_outputs” --llm-api openai --additional-sampling-params ‘{}’
vllm
inter_token_laten...