huhumyh请教个大模型微调的问题 中发帖

有个项目要调 QwQ32B,任务其实是个二分类问题,现在要基于原来普通的二分类数据集来构建一个包含推理轨迹的数据集。 
所以有个疑问就是推理轨迹的生成:

使用 deepseek r1 来生成答案,然后提取输出的推理轨迹
使用 v3 或者其他任何还不错的模型,让它使用 CoT 的策略来生成一个 reasoning

所以,疑问就是,是不是微调 QwQ 这种本身就是推理模型,必须要使用 1 这种方法提取出的推理轨迹呢?还是说可以使用 2 这种模板生成的推理字段。
有经验的佬友,求个解答🥹