Galaxy Hs 在你最爱的的AI模型怎么样？口说无凭，一键跑分！中发帖现在的 AI 模型五花八门，想要了解其真实质量无疑是一件难题

Galaxy Hs 在你最爱的的AI模型怎么样？口说无凭，一键跑分！中发帖

现在的 AI 模型五花八门，想要了解其真实质量无疑是一件难题。 
更何况，模型的表现显得非常 Dynamic。以 GPT 为例， GPT-4o 半夜的智商显著高于白天。而你 Gemini 也像盲盒，表现一天一个样，有时候是天才，有时候感觉和 Llama 坐一桌。 
基于此，我花了半天时间和jules搓了一个AI模型一键跑分程序，希望能为评估模型提供一个相对稳定的参考。 
GitHub 地址: GitHub - HsGalaxy/AI_Models_BenchMark 
运行逻辑
脚本的运行逻辑非常简单： 

下载数据集: 自动拉取 MMLU、GSM8K、MATH 等公开评测数据集。
API 请求: 调用目标 AI 模型的 API 来完成测试任务。
统计分数: 计算模型在各个任务上的得分和成功率。
生成报告: 自动汇总结果，生成一张清晰的跑分报告。

使用方法
只需编辑 configs/co...