变色龙 (@bianselong) 在字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1 中发帖4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力

变色龙 (@bianselong) 在字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1 中发帖

4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。 
现有挑战 
在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Value-based reinforcement learning methods）因能精确追溯每个动作对后续回报的影响，展现出巨大潜力。然而，应用于长链式推理（CoT）任务时，价值模型面临三大挑战。 
首先，价值模型初始化会引入偏差；其次，传统方法难以适应复杂任务中的序列长度差异；最后，验证任务中奖励信号稀疏，优化过程面临探索与利用的权衡，这些问题限制了价值导向方法的实际效果。 
VAPO 简介 
字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd（增强价值的近端政...