@ffbffs目前有什么大模型代码能力的测评工具吗?主要是对比的结论是什么? 中发帖

想调研下目前大模型特别是已经可以集成到 IDE 中插件的代码能力,比如 comate, github copilot, marscode, qwen 等等,评测方法大概看了下有比较老的 humaneval, 新势力有 fullstack bench,  bigcodebench 这类,但是比如 fullstack bench 的报告中没有 deepseek v3/r1 的测试结果,而 bigcodebench 倒是在官网上有最新的评测结果,想得知有没有各类测试评估方法结果的汇总点,可以看到最新的大模型,最好是大模型所对应的 IDE 插件在测试集中的表现情况。