作业君 (@homeworkkun) 在 【长期】国产模型Livebench测评(1.22更新glm-4-flash) 中发帖
🤣不然赠金要过期了,除了deepseek是livebench官网数据外,站内以前有人测过yi-lightning和minicpm-4b的(不过题库版本不同,我注明一下),然后其他的模型我都自己跑一遍
如果之后livebench更新的话也懒得改了,统一用2024-11-25的版本 😢
Model
Global Average
Reasoning Average
Coding Average
Mathematics Average
Data Analysis Average
Language Average
IF Average
deepseek-r1
71.38
83.17
66.74
79.54
69.78
48.53
80.51
deepseek-v3
60.45
56.75
61.77
60.54
60.94
47.48
75.25
deepseek-v2....