@Arthur63 在 livebench 最新模型跑分结果已出炉 中发帖
[image]
gemini 1.5 pro 002 与 gpt 4o(chatgpt 4o latest)持平。
qwen2.5 72b 的代码评分达到 56,仅次于 claude 3.5 sonnet,位居第二。
gemini 1.5 flash 002 评分 49,超过 deepseek 2.5。