@lueluelueCodex在Livebench上的评分出来了,OpenAI你坐得住吗🤣 中发帖

model
Livebench综合分
AMPS 困难
代码补全
代码生成
Connections 谜题
JavaScript
数学计算
奥赛题
语句改写
剧情重排
Python
表达式化简
空间推理
故事生成
摘要生成
表格关联
表格重排
TypeScript
错别字纠正
谎言之网 v3
斑马谜题




gpt-5-2025-08-07-high
78.593
99.0
71.739
78.873
99.0
35.0
95.833
83.483
87.4
59.481
60.0
92.467
98.0
87.5
85.083
43.269
100.0
35.0
84.0
100.0
96.5


gpt-5-2025-08-07
76.449
96.0
76.087
70.423
100.0
20.0
90.625
83.238
85.567
56.963
50.0
91.133
...