@bige0123 在 Qwen3在一些数据集上的测试 中发帖
评测来源于 ArtificialAnlys,
https://x.com/ArtificialAnlys/status/1917246369510879280
QWEN3-253B-A22B的官方测试结果中没有放出GPQA等其他的数据集,
主要是做到了deepseekv2的参数量跟r1比效果。
ArtificialAnlys分析中文翻译如下:
Qwen3 是开源权重和效率的胜利——混合推理模型,以总参数量三分之一的规模接近 DeepSeek R1 的 GPQA 分数,并提供一系列适用于计算受限环境的小型模型。
模型在我们 GPQA 评估中冗余度的额外视图(由推理 token 数量驱动)。
今天,阿里巴巴发布了八款不同规模和架构的混合推理模型(即可以在回答前切换至“思考”模式的模型),其规模从 0.6B 的密集模型到具有 22B 激活参数的 235B MoE 模型不等。我们的...