@bonabarenfei 在 2015年7月份没有被污染的Benchmark，大模型真实能力大比拼中发帖主要对2025 年 7 月以来 34 个新的 GitHub项目的 issue 任务进行了基准测试

@bonabarenfei 在 2015年7月份没有被污染的Benchmark，大模型真实能力大比拼中发帖

主要对2025 年 7 月以来 34 个新的 GitHub项目的 issue 任务 进行了基准测试。这些任务都是真实存在的、近期的问题，没有训练集污染，并且涵盖了专有模型和开源模型。 
测评结果如下 
 [0000] 
[0001]