zkz0615 在 我建议deepseek以写古体诗为新的强化学习训练集 中发帖
这里我认为这个方法能大幅提高deepseek的文学水平,而且方法简单。首先诗词有严格的规则,每个字有平仄,而且平仄需要符合律诗绝句还有词的严格规定,还需要按照韵表押韵。这些都是可以作为基于规则的奖励,而且deepseek r1本身对诗词文学就有一定鉴赏能力,鉴赏意境本身比写要简单,因此可以用对比来给出奖励。这个同样是一个可以大规模训练的方法,而且应该可以提高指令遵循能力。