HanWenbo (@hwb96) 在 有大模型从业者来交流下无需数据标注只需提示词进行强化学习这块吗? 中发帖
[image]
[1739457400497]
这是在科学空间交流群里看到的对话。目前哥们我所做的工作基本都是只限于后训练+微调+最简单的dpo,不需要有reward model的;
其他的基于模型的奖励系统是例如ppo最起码需要有标准答案的,为什么这位老哥做强化学习,不需要标注数据,完全只需要一个prompt,再加上另外一个大的打分模型指导这个模型自我提升。
是不是就是grpo,数据实际上是0.5b小模型自己生成的回答,打出来再让32b作奖励模型打分,我猜一次step出来了四条回答,更像是grpo,直接组间奖励,也没有评价模型。
有大佬能指导下吗?我真的非常好奇,这个打破了我一直以来的需要标注数据的认知。