作业君 (@homeworkkun) 在【长期】国产模型Livebench测评（1.22更新glm-4-flash）中发帖🤣不然赠金要过期了，除了deepseek是livebench官网数据外，站内以前有人测过yi-lightning和minicpm-4b的（不过题库版本不同，我注明一下），然后其他的模型我都自己跑一遍如果之后livebench更新的话也懒得改了，统一用2024-11-25的版本 😢 ModelGlobal AverageReasoning AverageCoding AverageMathematics AverageData Analysis AverageLanguage AverageIF Averagedeepseek-r171.3883.1766.7479.5469.7848.5380.51deepseek-v360.4556.7561.7760.5460.9447.4875.25deepseek-v2....

作业君 (@homeworkkun) 在【长期】国产模型Livebench测评（1.22更新glm-4-flash）中发帖

🤣不然赠金要过期了，除了deepseek是livebench官网数据外，站内以前有人测过yi-lightning和minicpm-4b的（不过题库版本不同，我注明一下），然后其他的模型我都自己跑一遍 
如果之后livebench更新的话也懒得改了，统一用2024-11-25的版本 😢 




Model
Global Average
Reasoning Average
Coding Average
Mathematics Average
Data Analysis Average
Language Average
IF Average




deepseek-r1
71.38
83.17
66.74
79.54
69.78
48.53
80.51


deepseek-v3
60.45
56.75
61.77
60.54
60.94
47.48
75.25


deepseek-v2....