zkz0615 在 deepseek下一步训练方法猜测 中发帖
我感觉deepseek之后会将总结部分和思考部分反过来然后当成sft的训练数据,训练一个模型以生成其他好的文章或者证明的中间思考过程,然后又反过来当成新的sft训练数据,这个方法应该对泛化多任务能力有效
我感觉deepseek之后会将总结部分和思考部分反过来然后当成sft的训练数据,训练一个模型以生成其他好的文章或者证明的中间思考过程,然后又反过来当成新的sft训练数据,这个方法应该对泛化多任务能力有效