zkz0615 在我建议deepseek以写古体诗为新的强化学习训练集中发帖这里我认为这个方法能大幅提高deepseek的文学水平，而且方法简单

zkz0615 在我建议deepseek以写古体诗为新的强化学习训练集中发帖

这里我认为这个方法能大幅提高deepseek的文学水平，而且方法简单。首先诗词有严格的规则，每个字有平仄，而且平仄需要符合律诗绝句还有词的严格规定，还需要按照韵表押韵。这些都是可以作为基于规则的奖励，而且deepseek r1本身对诗词文学就有一定鉴赏能力，鉴赏意境本身比写要简单，因此可以用对比来给出奖励。这个同样是一个可以大规模训练的方法，而且应该可以提高指令遵循能力。