zheng9817！ (@zxr104) 在很好奇大家现在怎么做 Agent 评估，特别是非 Coding 用途的 Agent 中发帖想了解下对于非 Coding 任务的 Agent，大家一般都采用什么 Benchmark 呀

zheng9817！ (@zxr104) 在很好奇大家现在怎么做 Agent 评估，特别是非 Coding 用途的 Agent 中发帖

想了解下对于非 Coding 任务的 Agent，大家一般都采用什么 Benchmark 呀。然后有没有什么统一的框架来进行 benchamrk 的测试呢？