@knowckx 在分享一下我觉得比较靠谱的两个[大模型榜单] 中发帖现在看大模型编程能力，我更倾向于需要去参考真实使用的榜单，而不是只看做题跑分能力

@knowckx 在分享一下我觉得比较靠谱的两个[大模型榜单] 中发帖

现在看大模型编程能力，我更倾向于需要去参考真实使用的榜单，而不是只看做题跑分能力。 
做题，你们都懂，是可以专项针对优化的 
我觉得比较有参考价值的两个榜单： 
1. Agent Arena 
地址 Agent Arena | AI Agent Performance Leaderboard 
它看的是模型在真实 Agent 任务里的表现，包含了调用工具，终端出错怎么恢复能力，幻觉调用不存在的工具等等很真实的场景。 
因为它不是单纯给模型出题，适合考查模型在真实多步骤任务里的表现。 
2. CursorBench 
Cursor 是一款 AI 的 IDE，所以他的数据来自于真实 Cursor 各种开发会话任务，属于第一手现场数据。 
地址  https://cursor.com/cn/cursorbench 
还有其他推荐的榜单，各位佬可以在评论区 安利一下！