看到这提肛20并点赞 (@remoteman) 在 Deepseek开源周 Day3:DeepGEMM 中发帖
[image]
DeepGEMM 是一个支持密集和 MoE GEMMs 的 FP8 GEMM 库,为 V3/R1 训练和推理提供动力。
⚡ 在 Hopper GPU 上可达到 1350+ FP8 TFLOPS
✅ 没有繁重的依赖
✅ 完全即时编译
✅ 核心逻辑仅约 300 行,但在大多数矩阵尺寸上仍优于专家调优的内核
✅ 支持密集布局和两种 MoE 布局
开源仓库:GitHub - deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling