@Kiko_rGRPO框架 中发帖

想问一下大家GRPO都用什么框架,我看项目有openr1(基于trl)、verl、openRLHF。其中trl vram占用很高,unsloth只能单卡,verl的reward function只能一个,openRLHF看起来有点复杂。还有什么推荐的吗