zkz0615 在 deepseek下一步训练方法猜测中发帖我感觉deepseek之后会将总结部分和思考部分反过来然后当成sft的训练数据，训练一个模型以生成其他好的文章或者证明的中间思考过程，然后又反过来当成新的sft训练数据，这个方法应该对泛化多任务能力有效

zkz0615 在 deepseek下一步训练方法猜测中发帖

我感觉deepseek之后会将总结部分和思考部分反过来然后当成sft的训练数据，训练一个模型以生成其他好的文章或者证明的中间思考过程，然后又反过来当成新的sft训练数据，这个方法应该对泛化多任务能力有效