弦塔_ (@Xtower) 在 【转载】【MiniMax】严肃回应对 minimax 的测评质疑 中发帖
在隔壁的评论好像看不到,单独开个贴回应一下评测问题。
首先,不存在数据造假,在给出的图里面也体现的很清楚,Opus 确实在 Terminal-Bench 2.0 上分数比我们高,所以不存在啥压低 baseline 的说法,我们不会避讳不如别人的地方,包括 opus 4.6。
之后聊聊评测。做 coding 的都知道,tb 2.0 这个榜单和 eval harness 关系很大,可以看 https://www.tbench.ai/leaderboard/terminal-bench/2.0 glm 4.7 在 terminus 33 分,https://z.ai/blog/glm-5 报 41分。这个差异来源是,tb 2.0 很吃环境,把资源都拉爆,分数自然就上去了。我们的希望是和官方对齐,比如官方用 Claude Code 测 Opus 4.5 52,我们自测的 55.1,你们测出来...