wendavid 在 求问有没有快速判断2api性能的工具/测试集 中发帖
最近跟着站内的大佬捞了不少2api玩,例如包括有各种OpenAI、Anthropic、Gemini的模型。但是2api的渠道相比官方渠道来说,一般性能是有所下降的(例如2api多加一些提示词等等)。另外,也有一些2api一开始是满血的,后面偷偷换模型。我读到不少站内佬友整理的分类不同模型的一些问题,我想问:
有没有推荐一些比较小的Bench或者数据集或者稳定的方法,以此评定这个API和满血API回答效果的区别(例如从Agentic Coding,Math等等),稳定的方法类似于问knowledge cutoff?
有没有相关轮子,把这些功能整合进比如NewAPI里,定时测多个渠道的2api效果,用于聚合管理(这样聚合渠道的时候还可以根据不同方面的满血程度来选不同的模型)?