Bunn (@BunnHack) 在 360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill 中发帖DeepSeek-R1 模型发布以来，尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能，但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩

Bunn (@BunnHack) 在 360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill 中发帖

DeepSeek-R1 模型发布以来，尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能，但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩。 
360 智脑开源的 Light-R1-32B 实现了突破，从没有长思维链的 Qwen2.5-32B-Instruct 开始训练，它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分，均显著超越 DeepSeek-R1-Distill-Qwen-32B。 
Light-R1-32B 的这套从零训练的方案，按 H800 租用价格估算，训练成本仅需 1000 美元左右。仅使用了 7 万条数学数据，通过两阶段的课程学习 SFT 接着 DPO，即可超过 DeepSeek-R1-Distill-Qwe...