@sparklydream自己维护 LLM Benchmark 的一些问题 中发帖

目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。 
因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。
目前存在的问题如下:

在 OJ 上评测有滥用评测资源的嫌疑,因此我打算在本地使用 LemonLime 评测,但获取测试数据可能存在一定困难。
我目前缺乏正规的 LLM 渠道,只能使用各家的网页端以及一些公益进行评测,对于评测的准确性可能有负面影响。

但我觉得目前还是先把题目搜集起来再说。