@knowckx分享一下 我觉得比较靠谱的两个[大模型榜单] 中发帖

现在看大模型编程能力,我更倾向于需要去参考真实使用的榜单,而不是只看做题跑分能力。 
做题,你们都懂,是可以专项针对优化的
我觉得比较有参考价值的两个榜单:
1. Agent Arena
地址 Agent Arena | AI Agent Performance Leaderboard
它看的是模型在真实 Agent 任务里的表现,包含了调用工具,终端出错怎么恢复能力,幻觉调用不存在的工具等等很真实的场景。
因为它不是单纯给模型出题,适合考查模型在真实多步骤任务里的表现。
2. CursorBench
Cursor 是一款 AI 的 IDE,所以他的数据来自于真实 Cursor 各种开发会话任务,属于第一手现场数据。
地址 https://cursor.com/cn/cursorbench
还有其他推荐的榜单,各位佬可以在评论区 安利一下!