TerryFlatley 在 零一万物 yi-lightning模型做一个小型测试,选了几个模型做对比 中发帖
这里直接上图,仅供参考
[图片 | 588x500]
选了三个接近 yi-lightning 的定位做了个测试,使用 GAOKAO-Bench 评测框架进行了全方面的测试
Doubao-lite-32k 官方渠道
DeepSeek-V2.5 硅基移动
gpt-4o-mini plus 逆向渠道
模型请求参数
temperature:0.3
以下是 GAOKAO-Bench 的介绍
我们希望能够建立一个标准化、综合性的评测框架来对大模型进行全方位、准确的评估。在中国,高考是标准化水平最高、综合性最强并且认可度最广的考试之一,我们希望借用高考的题目来评估大模型的能力。因此,我们收集了 2010-2022 年全国高考卷的题目,其中包括 1781 道客观题和 1030 道主观题,构建起 GAOKAO-Bench 的数据部分。
我使用 chatgpt-4o-lates...