Galaxy Hs 在 你最爱的的AI模型怎么样?口说无凭,一键跑分! 中发帖
现在的 AI 模型五花八门,想要了解其真实质量无疑是一件难题。
更何况,模型的表现显得非常 Dynamic。以 GPT 为例, GPT-4o 半夜的智商显著高于白天。而你 Gemini 也像盲盒,表现一天一个样,有时候是天才,有时候感觉和 Llama 坐一桌。
基于此,我花了半天时间和jules搓了一个AI模型一键跑分程序,希望能为评估模型提供一个相对稳定的参考。
GitHub 地址: GitHub - HsGalaxy/AI_Models_BenchMark
运行逻辑
脚本的运行逻辑非常简单:
下载数据集: 自动拉取 MMLU、GSM8K、MATH 等公开评测数据集。
API 请求: 调用目标 AI 模型的 API 来完成测试任务。
统计分数: 计算模型在各个任务上的得分和成功率。
生成报告: 自动汇总结果,生成一张清晰的跑分报告。
使用方法
只需编辑 configs/co...