@HCPTangHY 在 DeepSeek更新DeepEP v2大幅提升通信效率并节省算力 中发帖
DeepSeek于2026年4月23日在GitHub更新了完全重构的专家并行通信库DeepEP v2。此次发布相较于此前承诺的5月1日前,提前了一周左右。该库作为大语言模型在分布式训练和推理中的核心通信组件,此次更新旨在解决初代版本积累的技术债务与性能瓶颈。
新发布的DeepEP v2实现了对专家并行通信机制的彻底重构,专家并行是一种让大语言模型中的不同专家模块在不同计算节点上协同工作的技术。在延续DeepSeek V3模型配置的测试中,新版本不仅将峰值性能提升至初代的1.3倍,还将流处理器资源的占用降低了多达4倍。这意味着该通信库可以在消耗极少GPU计算资源的情况下,实现更高效的数据交换。
技术架构方面,DeepEP v2放弃了原有的NVSHMEM后端,切换为更轻量、无头文件的NCCL Gin后端,并引入了全即时编译框架。新版本还带来了多项零流处理器消耗的实验性特性,包括流水线并...