Bunn (@BunnHack) 在 360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill 中发帖
DeepSeek-R1 模型发布以来,尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能,但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩。
360 智脑开源的 Light-R1-32B 实现了突破,从没有长思维链的 Qwen2.5-32B-Instruct 开始训练,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均显著超越 DeepSeek-R1-Distill-Qwen-32B。
Light-R1-32B 的这套从零训练的方案,按 H800 租用价格估算,训练成本仅需 1000 美元左右。仅使用了 7 万条数学数据,通过两阶段的课程学习 SFT 接着 DPO,即可超过 DeepSeek-R1-Distill-Qwe...