QingJ开发了一个AI 编码能力评测框架,需要一些帮助 中发帖

首先介绍下我的项目 
Req-2-Rank
一个开源 AI 编码能力评测框架 — 动态需求生成 · 多模型陪审团评审 · 社区驱动排行榜
它解决什么问题?
现有 LLM 编码评测普遍依赖固定题库,面临训练集泄漏、难度分布不均和维度单一等问题。
Req-2-Rank 的策略:




特性
实现方案




杜绝数据泄漏
每次运行由 LLM 动态生成全新需求,无固定题库


去评审偏见
多模型陪审团(LLM-as-a-Judge)交叉评审,附带一致性分析与 95% 置信区间


开源自部署
用户用自己的 API Key 在本地运行,零外部服务依赖(仅需 LLM API)


社区排行榜
评测结果可提交至中心 Hub,含 Nonce 防伪 + 抽样复验机制



这是项目的GitHub,感兴趣的佬友可以看看

项目目前还在开发中,开发进度90%左右
跟佬友们讲讲我需要的帮助
因为本...