看到这提肛20并点赞 (@remoteman)Deepseek开源周 Day1:FlashMLA 中发帖

[af2bf0267b148600ab38c422351c0084] 

FlashMLA—高效 MLA 解码内核,专为 Hopper GPU 优化,适用于可变长度序列,支持BF16\分页KVCache,能够在H800提供3000 GB/秒内存带宽及 580 TFLOPS 计算能力

开源仓库:GitHub - deepseek-ai/FlashMLA