疑无 (@yiwu) 在加州伯克利大学博士生以 30 刀成本复现 DeepSeek-R1-Zero RL 训练中发帖根据 Tomshardware 报道，由加州伯克利大学博士生 Jiayi Pan 领导的 AI 研究小组在一个基于 3b 参数的小模型上复现了 DeepSeek-R1-Zero 训练中使用的强化学习方法，使其发展出自我验证和搜索的能力

疑无 (@yiwu) 在加州伯克利大学博士生以 30 刀成本复现 DeepSeek-R1-Zero RL 训练中发帖

根据 Tomshardware 报道，由加州伯克利大学博士生 Jiayi Pan 领导的 AI 研究小组在一个基于 3b 参数的小模型上复现了 DeepSeek-R1-Zero 训练中使用的强化学习方法，使其发展出自我验证和搜索的能力。 
 [Image credit: Jiayi Pan / nitter] 
令人印象深刻的是，通过利用 DeepSeek-R1-Zero 和强化学习，整个训练仅耗费 30 美金。