Schrödinger (@synbio) 在 QwQ-32B发布中发帖今天发布了 QwQ-32B，这是我们的新推理模型，它只有 320 亿个参数，可以与 DeepSeek-R1 等尖端推理模型相媲美

Schrödinger (@synbio) 在 QwQ-32B发布中发帖

今天发布了 QwQ-32B，这是我们的新推理模型，它只有 320 亿个参数，可以与 DeepSeek-R1 等尖端推理模型相媲美。 
博客： QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen 
高频： Qwen/QwQ-32B · Hugging Face 
模型范围： modelscope.cn/models/Qwen/Qw… 
演示： huggingface.co/spaces/Qwen/Qw… 
Qwen 聊天： chat.qwen.ai 
这次，我们研究了扩展 RL 的方法，并基于我们的 Qwen2 取得了一些令人印象深刻的成果。 5-32B 。我们发现 RL 训练可以不断提高性能，尤其是在数学和编码方面，并且我们观察到 RL 的持续扩展可以帮助中型模型实现与巨型 MoE 模型相媲美的性能。欢迎随时与我们的新...