mark (@lujun) 在 [求助] 各位大佬，有没有好用的 LLM API 压测脚本或工具推荐？在线等挺急的中发帖最近公司要做大模型（LLM）的技术选型，需要对几家主流服务商（如 OpenAI、Azure、国内几家大厂的）的 API 接口进行压力测试，主要想测一下 QPS（每秒请求数）、并发连接数以及首字响应时间（TTFT）

mark (@lujun) 在 [求助] 各位大佬，有没有好用的 LLM API 压测脚本或工具推荐？在线等挺急的中发帖

最近公司要做大模型（LLM）的技术选型，需要对几家主流服务商（如 OpenAI、Azure、国内几家大厂的）的 API 接口进行压力测试，主要想测一下 QPS（每秒请求数）、并发连接数以及首字响应时间（TTFT）。 
我自己用 Python 写了几十行脚本，但感觉太简陋了，只能做简单的循环请求，没法很好地模拟用户真实并发场景（比如上下文的思考、阶梯式加压）。 
想问下各位大佬： 

有没有好用的开源工具推荐？ 像传统的压测工具（JMeter, Locust）集成 HTTP 请求比较简单，但处理 SSE（流式输出）和鉴权好像有点麻烦，有没有专门针对 LLM 的魔改版？
或者有没有现成的压测脚本？ 比如基于 Python asyncio 写的高并发脚本，能统计 Token 吞吐量的那种。
商业的也行，只要能试用，主要是为了给老板出报告。

先谢过各位了！🙏