@namebai 在 4卡H20-141G 部署官方FP8版本的Minimax-m2.5 测速情况 中发帖
((vllm_env) ) python testmulti.py
🚀 正在启动压测…
→ 目标模型: minimax-m2.5
→ 并发数 (Concurrency): 32
→ 预计等待时间: 根据并发数不同,大约需要 10~60 秒…
================ 压测结果报告 ================
✅ 成功请求数: 32 / 32
⏱ 压测总耗时: 13.67 秒
📊 总生成 Tokens: 16384
🚀 极限吞吐量 (Throughput): 1198.34 Tokens/s
延迟分析:
平均单次请求响应时间: 13.26 秒
平均每次请求生成 Tokens: 512
==============================================
((vllm_env) ) python testmulti.p...