作业君 (@homeworkkun) 在 实事求是的说,文心4.0曾经的水平还是可以的( 中发帖
我是说——曾经
模型
总分
推理
编程
数学
数据分析
语言
指令跟随
gpt-4o-2024-05-13
53.98
50
49.36
45.98
52.41
53.94
72.17
ernie-4.0-turbo-8k
47.7
53.3
35.9
44.8
46.1
27.6
78
gpt-4-0125-preview
47.34
47.33
41.8
33.39
54.06
43.55
63.92
deepseek-v2.5
47.31
39.33
45.48
47.95
46.78
35.18
69.15
gpt-4-0613
45.14
34.67
37.31
33.48
44.03
49.57
71.79
ernie-3.5-8k
44.6
50.7
28.6
31.8
48.8
30.6
77.3
qwen2.5-14b-instr...