LINUX DO Channel

变色龙 (@bianselong) 在提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架中发帖

论文链接：[2409.19256] HybridFlow: A Flexible and Efficient RLHF Framework
代码链接：GitHub - volcengine/verl: veRL: Volcano Engine Reinforcement Learning for LLM 提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架 - IT之家