xy3 在大模型强化学习训练框架咨询中发帖目前了解到可以给llm做rl后训练的框架有 trl，unsloth，llama factory，openrlhf，verl 最后两个好像是可以多卡的，用了ray框架不过本人是刚接触这方面的小白可能后续读研会弄这个方向，目前没有足够资源去跑多卡的但是好像听说trl写的特别死不方便二次开发？目前看unsloth是单卡性能显存占用最少的，不过他基于trl，要先调用patch函数修补才能用trl的库，是不是二次开发使用更复杂了

xy3 在大模型强化学习训练框架咨询中发帖

目前了解到可以给llm做rl后训练的框架有 
trl，unsloth，llama factory，openrlhf，verl 
最后两个好像是可以多卡的，用了ray框架 
不过本人是刚接触这方面的小白 可能后续读研会弄这个方向，目前没有足够资源去跑多卡的 
但是好像听说trl写的特别死不方便二次开发？目前看unsloth是单卡性能显存占用最少的，不过他基于trl，要先调用patch函数修补才能用trl的库，是不是二次开发使用更复杂了