作业君 (@homeworkkun)实事求是的说,文心4.0曾经的水平还是可以的( 中发帖

我是说——曾经 




模型
总分
推理
编程
数学
数据分析
语言
指令跟随




gpt-4o-2024-05-13
53.98
50
49.36
45.98
52.41
53.94
72.17


ernie-4.0-turbo-8k
47.7
53.3
35.9
44.8
46.1
27.6
78


gpt-4-0125-preview
47.34
47.33
41.8
33.39
54.06
43.55
63.92


deepseek-v2.5
47.31
39.33
45.48
47.95
46.78
35.18
69.15


gpt-4-0613
45.14
34.67
37.31
33.48
44.03
49.57
71.79


ernie-3.5-8k
44.6
50.7
28.6
31.8
48.8
30.6
77.3


qwen2.5-14b-instr...