LINUX DO Channel

QingJ 在开发了一个AI 编码能力评测框架,需要一些帮助中发帖
首先介绍下我的项目 
Req-2-Rank
一个开源 AI 编码能力评测框架 — 动态需求生成 · 多模型陪审团评审 · 社区驱动排行榜 
它解决什么问题？
现有 LLM 编码评测普遍依赖固定题库，面临训练集泄漏、难度分布不均和维度单一等问题。 
Req-2-Rank 的策略： 




特性
实现方案




杜绝数据泄漏
每次运行由 LLM 动态生成全新需求，无固定题库


去评审偏见
多模型陪审团（LLM-as-a-Judge）交叉评审，附带一致性分析与 95% 置信区间


开源自部署
用户用自己的 API Key 在本地运行，零外部服务依赖（仅需 LLM API）


社区排行榜
评测结果可提交至中心 Hub，含 Nonce 防伪 + 抽样复验机制



这是项目的GitHub，感兴趣的佬友可以看看 

项目目前还在开发中，开发进度90%左右 
跟佬友们讲讲我需要的帮助 
因为本...