疑无 (@yiwu)加州伯克利大学博士生以 30 刀成本复现 DeepSeek-R1-Zero RL 训练 中发帖

根据 Tomshardware 报道,由加州伯克利大学博士生 Jiayi Pan 领导的 AI 研究小组在一个基于 3b 参数的小模型上复现了 DeepSeek-R1-Zero 训练中使用的强化学习方法,使其发展出自我验证和搜索的能力。 
[Image credit: Jiayi Pan / nitter]
令人印象深刻的是,通过利用 DeepSeek-R1-Zero 和强化学习,整个训练仅耗费 30 美金。