变色龙 (@bianselong)提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架 中发帖

论文链接:[2409.19256] HybridFlow: A Flexible and Efficient RLHF Framework
代码链接:GitHub - volcengine/verl: veRL: Volcano Engine Reinforcement Learning for LLM 提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架 - IT之家