弦塔_ (@Xtower) 在【转载】【MiniMax】严肃回应对 minimax 的测评质疑中发帖在隔壁的评论好像看不到，单独开个贴回应一下评测问题

弦塔_ (@Xtower) 在【转载】【MiniMax】严肃回应对 minimax 的测评质疑中发帖

在隔壁的评论好像看不到，单独开个贴回应一下评测问题。 
首先，不存在数据造假，在给出的图里面也体现的很清楚，Opus 确实在 Terminal-Bench 2.0 上分数比我们高，所以不存在啥压低 baseline 的说法，我们不会避讳不如别人的地方，包括 opus 4.6。 
之后聊聊评测。做 coding 的都知道，tb 2.0 这个榜单和 eval harness 关系很大，可以看 https://www.tbench.ai/leaderboard/terminal-bench/2.0 glm 4.7 在 terminus 33 分，https://z.ai/blog/glm-5 报 41分。这个差异来源是，tb 2.0 很吃环境，把资源都拉爆，分数自然就上去了。我们的希望是和官方对齐，比如官方用 Claude Code 测 Opus 4.5 52，我们自测的 55.1，你们测出来...