mark (@lujun) 在 [求助] 各位大佬,有没有好用的 LLM API 压测脚本或工具推荐?在线等挺急的 中发帖
最近公司要做大模型(LLM)的技术选型,需要对几家主流服务商(如 OpenAI、Azure、国内几家大厂的)的 API 接口进行压力测试,主要想测一下 QPS(每秒请求数)、并发连接数以及首字响应时间(TTFT)。
我自己用 Python 写了几十行脚本,但感觉太简陋了,只能做简单的循环请求,没法很好地模拟用户真实并发场景(比如上下文的思考、阶梯式加压)。
想问下各位大佬:
有没有好用的开源工具推荐? 像传统的压测工具(JMeter, Locust)集成 HTTP 请求比较简单,但处理 SSE(流式输出)和鉴权好像有点麻烦,有没有专门针对 LLM 的魔改版?
或者有没有现成的压测脚本? 比如基于 Python asyncio 写的高并发脚本,能统计 Token 吞吐量的那种。
商业的也行,只要能试用,主要是为了给老板出报告。
先谢过各位了!🙏