@namebai4卡H20-141G 部署官方FP8版本的Minimax-m2.5 测速情况 中发帖

((vllm_env) ) python testmulti.py 
🚀 正在启动压测…
→ 目标模型: minimax-m2.5
→ 并发数 (Concurrency): 32
→ 预计等待时间: 根据并发数不同,大约需要 10~60 秒…
================ 压测结果报告 ================
成功请求数: 32 / 32
压测总耗时: 13.67 秒
📊 总生成 Tokens: 16384
🚀 极限吞吐量 (Throughput): 1198.34 Tokens/s
延迟分析:

平均单次请求响应时间: 13.26 秒
平均每次请求生成 Tokens: 512
==============================================
((vllm_env) ) python testmulti.p...