MKY (@menkeyi) 在大模型推理压测大家如何做？中发帖4块A100-80G 不知道自己测试对不对，sglang并发并没有vllm高压力测试命令 python token_benchmark_ray.py --model “DeepSeek-R1-Distill-Qwen-32B” --mean-input-tokens 100 --stddev-input-tokens 50 --mean-output-tokens 500 --stddev-output-tokens 100 --max-num-completed-requests 128 --timeout 600 --num-concurrent-requests 1 --results-dir “result_outputs” --llm-api openai --additional-sampling-params ‘{}’ vllm inter_token_laten...

MKY (@menkeyi) 在大模型推理压测大家如何做？中发帖

4块A100-80G 
不知道自己测试对不对，sglang并发并没有vllm高 
压力测试命令 
python token_benchmark_ray.py --model “DeepSeek-R1-Distill-Qwen-32B” --mean-input-tokens 100 --stddev-input-tokens 50 --mean-output-tokens 500 --stddev-output-tokens 100 --max-num-completed-requests 128 --timeout 600 --num-concurrent-requests 1 --results-dir “result_outputs” --llm-api openai --additional-sampling-params ‘{}’ 
vllm 
inter_token_laten...