@wangbinyqArtificial Analysis 发布的 qwq 测评分数 中发帖

GPQA Diamond:59.5%,低于 DeepSeek R1 的 71%,略低于 Gemini 2.0 Flash 的 62%。
AIME 2024:78%,与阿里巴巴的说法相符,优于 DeepSeek R1,仅次于 o3-mini-high。

[GPQA]
[AIME]