@bige0123 在 Qwen3在一些数据集上的测试中发帖评测来源于 ArtificialAnlys， https://x.com/ArtificialAnlys/status/1917246369510879280 QWEN3-253B-A22B的官方测试结果中没有放出GPQA等其他的数据集，主要是做到了deepseekv2的参数量跟r1比效果

@bige0123 在 Qwen3在一些数据集上的测试中发帖

评测来源于 ArtificialAnlys， 
https://x.com/ArtificialAnlys/status/1917246369510879280 
QWEN3-253B-A22B的官方测试结果中没有放出GPQA等其他的数据集， 
主要是做到了deepseekv2的参数量跟r1比效果。 
ArtificialAnlys分析中文翻译如下： 

Qwen3 是开源权重和效率的胜利——混合推理模型，以总参数量三分之一的规模接近 DeepSeek R1 的 GPQA 分数，并提供一系列适用于计算受限环境的小型模型。 
模型在我们 GPQA 评估中冗余度的额外视图（由推理 token 数量驱动）。 
今天，阿里巴巴发布了八款不同规模和架构的混合推理模型（即可以在回答前切换至“思考”模式的模型），其规模从 0.6B 的密集模型到具有 22B 激活参数的 235B MoE 模型不等。我们的...