@mistpeak 在 🍸AI调酒师的小把戏:R1与其他模型的双拼工作流(FastGPT版) 中发帖
在实现思维链推理时,我们最开始可能会直接尝试通过特殊提示词来引导模型进行模拟R1深度分析。比如ThinkingClaude或者其他类似的提示词,这种方法虽然常见,但好像也只是告诉他答题规范,我想应该是这样(我胡说的 :grimacing:),反正跟R1,o1的思考还是有区别,那相比之下,R1从训练阶段就接触了大量思维链模板,这种"从小培养"的方式,应该会很不一样才对。 :tieba_001:
“参考”了一些项目与论文(其实就是扫了几眼),"R1模型通过强化学习形成了独特的推理模式。它展现出"元认知"特征 - 在推理过程中会进行自我纠正,探索边缘情况,甚至能以自然语言方式执行类似蒙特卡洛树搜索的分析"......**好吧其实这部分我自己也不太清楚 :lark_012:**,But! 我可以清楚的是,我们可以跟以前的生图工作流一样,两个模型配合一下,以前是一个写生图提示词,一个生...