F-Droid 在 1.5B模型超过O1-Preview了！中发帖DeepScaleR 🚀 民主化大型语言模型的强化学习 🌟 DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型，采用分布式强化学习（RL）技术，能够扩展到更长的上下文长度

F-Droid 在 1.5B模型超过O1-Preview了！中发帖

DeepScaleR 
🚀 民主化大型语言模型的强化学习 🌟 
DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型，采用分布式强化学习（RL）技术，能够扩展到更长的上下文长度。该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率，相较于基础模型的 28.8% 提升了 15%，并且仅凭 1.5B 参数就超越了 OpenAI 的 O1-Preview 性能表现。 
| Model                  | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | 
|------------------------|-----------|----------|----------|--------------| 
| DeepSc...