看到这提肛20并点赞 (@remoteman)Deepseek开源周 Day3:DeepGEMM 中发帖

[image] 
DeepGEMM 是一个支持密集和 MoE GEMMs 的 FP8 GEMM 库,为 V3/R1 训练和推理提供动力。
在 Hopper GPU 上可达到 1350+ FP8 TFLOPS
没有繁重的依赖
完全即时编译
核心逻辑仅约 300 行,但在大多数矩阵尺寸上仍优于专家调优的内核
支持密集布局和两种 MoE 布局
开源仓库:GitHub - deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling