小酷盖 (@Weicheng1)强化学习微调 中发帖

有没有佬友做过 强化学习微调的。 如果用整理的数据,用强化学习微调一个大模型。哪个模型更合适啊,希望成本相对较低,或者有没有实战经验分享一下。