zhang123 在 Qwen3-Max:我要白嫖,部分基准测试100%准确率,赶英超美,好像没英国什么事情。 中发帖
全部抄的官文。
继 Qwen3-2507 系列发布之后,我们非常高兴地推出 Qwen3-Max —— 我们迄今为止规模最大、能力最强的模型。目前,Qwen3-Max-Instruct 的预览版在 LMArena 文本排行榜上位列第三,超越了 GPT-5-Chat。正式版本在代码能力和智能体(agent)能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。
我们诚邀您通过阿里云 API 体验 Qwen3-Max-Instruct,或直接在 Qwen Chat 上进行试用。与此同时,仍在训练中的 Qwen3-Max-Thinking 已展现出非凡潜力。在结合工具使用并增加测试时计算资源的情况下,该“思考”版本已在 AIME 25、HMMT 等高难度推理基准测试中取得 100% 的准确率。我们期待在不久的将来向公众正式...