@sparklydream 在自己维护 LLM Benchmark 的一些问题中发帖目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一

@sparklydream 在自己维护 LLM Benchmark 的一些问题中发帖

目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一。 
因此我打算自己搜集一些题目，维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。 
目前存在的问题如下： 

在 OJ 上评测有滥用评测资源的嫌疑，因此我打算在本地使用 LemonLime 评测，但获取测试数据可能存在一定困难。
我目前缺乏正规的 LLM 渠道，只能使用各家的网页端以及一些公益进行评测，对于评测的准确性可能有负面影响。

但我觉得目前还是先把题目搜集起来再说。