@namebai 在 4卡H20-141G 部署官方FP8版本的Minimax-m2.5 测速情况中发帖((vllm_env) ) python testmulti.py 🚀 正在启动压测… → 目标模型: minimax-m2.5 → 并发数 (Concurrency): 32 → 预计等待时间: 根据并发数不同，大约需要 10~60 秒… ================ 压测结果报告 ================ ✅ 成功请求数: 32 / 32 ⏱ 压测总耗时: 13.67 秒 📊 总生成 Tokens: 16384 🚀 极限吞吐量 (Throughput): 1198.34 Tokens/s 延迟分析: 平均单次请求响应时间: 13.26 秒平均每次请求生成 Tokens: 512 ============================================== ((vllm_env) ) python testmulti.p...

@namebai 在 4卡H20-141G 部署官方FP8版本的Minimax-m2.5 测速情况中发帖

((vllm_env) ) python testmulti.py 
🚀 正在启动压测… 
 → 目标模型: minimax-m2.5 
 → 并发数 (Concurrency): 32 
 → 预计等待时间: 根据并发数不同，大约需要 10~60 秒… 
================ 压测结果报告 ================ 
✅ 成功请求数: 32 / 32 
⏱  压测总耗时: 13.67 秒 
📊 总生成 Tokens: 16384 
🚀 极限吞吐量 (Throughput): 1198.34 Tokens/s 
延迟分析: 

平均单次请求响应时间: 13.26 秒
平均每次请求生成 Tokens: 512 
============================================== 
((vllm_env) )  python testmulti.p...