xy3大模型强化学习训练框架咨询 中发帖

目前了解到可以给llm做rl后训练的框架有 
trl,unsloth,llama factory,openrlhf,verl
最后两个好像是可以多卡的,用了ray框架
不过本人是刚接触这方面的小白 可能后续读研会弄这个方向,目前没有足够资源去跑多卡的
但是好像听说trl写的特别死不方便二次开发?目前看unsloth是单卡性能显存占用最少的,不过他基于trl,要先调用patch函数修补才能用trl的库,是不是二次开发使用更复杂了