Wxh_Hugo【开源自荐】BumbleCore 一个从零手写的大模型训练框架 中发帖

分享一个开源项目:BumbleCore
佬友们大家好!
这是我加入L站第一次发帖子hhhh,很开心很激动。发帖的目的是想给大家分享一个开源项目。
我是25届毕业生,毕业后在一家大模型公司任算法工程师一职。
在工作之余我自己写了这个项目–BumbleCore。
这是一个大模型训练框架,支持Pretrain, SFT, DPO。底层使用DeepSpeed构建,并未使用Trainer等高级接口,从数据加载、数据处理、训练循环、计算损失、模型推理等均是手动实现。
比较特别的是,这个代码里还实现了一个BumbleBee模型,这是参考Qwen源码写的架构。你可以直接使用这个模型架构做三阶段训练。它的优势是可以按照你的想法初始化任何大小的参数量,如果你希望做算法创新,重新设计等都可以直接用这个架构作为模版,然后增加或改进新的层数。
这样做的目的是可以给想学习训练大模型的人一个清晰的指导。你可...