zheng9817! (@zxr104)很好奇大家现在怎么做 Agent 评估,特别是非 Coding 用途的 Agent 中发帖

想了解下对于非 Coding 任务的 Agent,大家一般都采用什么 Benchmark 呀。然后有没有什么统一的框架来进行 benchamrk 的测试呢?