@ffbffs 在目前有什么大模型代码能力的测评工具吗？主要是对比的结论是什么？中发帖想调研下目前大模型特别是已经可以集成到 IDE 中插件的代码能力，比如 comate, github copilot, marscode, qwen 等等，评测方法大概看了下有比较老的 humaneval, 新势力有 fullstack bench, bigcodebench 这类，但是比如 fullstack bench 的报告中没有 deepseek v3/r1 的测试结果，而 bigcodebench 倒是在官网上有最新的评测结果，想得知有没有各类测试评估方法结果的汇总点，可以看到最新的大模型，最好是大模型所对应的 IDE 插件在测试集中的表现情况

@ffbffs 在目前有什么大模型代码能力的测评工具吗？主要是对比的结论是什么？中发帖

想调研下目前大模型特别是已经可以集成到 IDE 中插件的代码能力，比如 comate, github copilot, marscode, qwen 等等，评测方法大概看了下有比较老的 humaneval, 新势力有 fullstack bench,  bigcodebench 这类，但是比如 fullstack bench 的报告中没有 deepseek v3/r1 的测试结果，而 bigcodebench 倒是在官网上有最新的评测结果，想得知有没有各类测试评估方法结果的汇总点，可以看到最新的大模型，最好是大模型所对应的 IDE 插件在测试集中的表现情况。