Dong L (@xdliu) 在 Coding agent (不是model)大家一般看什么benchmark 中发帖
我理解模型的benchmark已经有很多了,各种SWE-bench的变形
但是实际开发大家都是用coding agent,这方面比较什么benchmark比较好
比如对比 原版cc,cc+其他的模型,codex,甚至cursor+claude模型,反重力 这些
有没有什么对比