F-Droid 在 1.5B模型超过O1-Preview了! 中发帖
DeepScaleR
🚀 民主化大型语言模型的强化学习 🌟
DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,采用分布式强化学习(RL)技术,能够扩展到更长的上下文长度。该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,相较于基础模型的 28.8% 提升了 15%,并且仅凭 1.5B 参数就超越了 OpenAI 的 O1-Preview 性能表现。
| Model | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math |
|------------------------|-----------|----------|----------|--------------|
| DeepSc...