timmm 在一个项目想法: 用公开测试集判断 API 是否掺水或降智，有没有感兴趣的想来做做看？中发帖我最近有个想法，是写个测试 llm 是否掺假或降智的项目

timmm 在一个项目想法: 用公开测试集判断 API 是否掺水或降智，有没有感兴趣的想来做做看？中发帖

我最近有个想法，是写个测试 llm 是否掺假或降智的项目。 
做法就是直接去跑现成的 LLM benchmarks，比如跑个 GPQA 之类的 (还得找比较好的 benchmark)，然后去对比模型的公开 benchmark 数据。 
用公开的，完整的 benchmark，量化降智。 
虽然现在 LLM 很多都是面向 benchmark 训练，但我们大概可以假设真实的，没降智的模型 benchmark 还是会比掺水的模型好。起码如果没掺水，分数应该和官方发布的数据差不了太多。 
配合 2 API 项目或是弄个什么浏览器自动化流程，也可以测试 WebUI 里面的模型实际智商。 
但我最近很忙，没时间做。不知道有没有人对这种东西感兴趣。应该不算特别难，基本就只是找个成本比较低的测试数据集然后搓一个比较方便的接口吧…? 然后再做个炫酷的前端让普通人用着也方便。