@bonabarenfei 在 2015年7月份没有被污染的Benchmark,大模型真实能力大比拼 中发帖
主要对2025 年 7 月以来 34 个新的 GitHub项目的 issue 任务 进行了基准测试。这些任务都是真实存在的、近期的问题,没有训练集污染,并且涵盖了专有模型和开源模型。
测评结果如下
[0000]
[0001]