TerryFlatley零一万物 yi-lightning模型做一个小型测试,选了几个模型做对比 中发帖

这里直接上图,仅供参考 

[图片 | 588x500]
选了三个接近 yi-lightning 的定位做了个测试,使用 GAOKAO-Bench 评测框架进行了全方面的测试

Doubao-lite-32k 官方渠道
DeepSeek-V2.5 硅基移动
gpt-4o-mini plus 逆向渠道

模型请求参数
temperature:0.3

以下是 GAOKAO-Bench 的介绍

我们希望能够建立一个标准化、综合性的评测框架来对大模型进行全方位、准确的评估。在中国,高考是标准化水平最高、综合性最强并且认可度最广的考试之一,我们希望借用高考的题目来评估大模型的能力。因此,我们收集了 2010-2022 年全国高考卷的题目,其中包括 1781 道客观题和 1030 道主观题,构建起 GAOKAO-Bench 的数据部分。

我使用 chatgpt-4o-lates...