小酷盖 (@Weicheng1) 在强化学习微调中发帖有没有佬友做过强化学习微调的

小酷盖 (@Weicheng1) 在强化学习微调中发帖

有没有佬友做过 强化学习微调的。 如果用整理的数据，用强化学习微调一个大模型。哪个模型更合适啊，希望成本相对较低，或者有没有实战经验分享一下。