变色龙 (@bianselong) 在 谷歌研究:合成数据使大模型数学推理能力提升八倍 中发帖
鉴于此,研究人员引入了负向数据,即经过验证为错误的问题解决步骤。这有助于模型识别并避免错误,从而增强其逻辑推理能力。尽管使用负向数据存在挑战,因为错误的步骤可能包含误导性信息,但研究人员通过直接偏好优化(DPO)方法成功地使模型能够从错误中学习,强调了每个问题解决步骤的重要性。
DPO 方法为每个问题解决步骤分配一个优势值,反映其相对于理想解决方案的价值。研究表明,高优势步骤是正确解决方案的关键,而低优势步骤可能表明模型推理中存在问题。利用这些优势值,模型可以在强化学习框架内动态调整其策略,从而更高效地从合成数据中学习和改进。
为了验证合成数据的有效性,研究团队使用 DeepSeek-Math-7B 和 LLaMa2-7B 等模型,在 GSM8K 和 MATH 数据集上进行了全面测试。结果显示,经过正向和负向合成数据预训练的大模型在数学推理任务上的性能实现了八倍的提升。这一研究充分展示...