JerryLiu369 在 【Fable测试】真的吓到了,贡献一个数据点 中发帖
大模型kernel优化领域存在一个benchmark叫FlashInfer-Bench,其中有一道题目是Sparse_Attention算子,这是DeepSeek等现代大模型中很重要的一个构件: FlashInfer-Bench-Sparse-Attention
今天用cursor中的Fable 5 max thinking试了一下无Agent环境单次生成(不测试/迭代,不然实在烧不起QAQ),prompt如下:
dsa_sparse_attention_h16_ckv512_kpe64_topk2048_ps64.json
对这个算子,请给我写一个在本机a800卡能运行的,单py文件+triton/cuda extension形式的高性能kernel实现,要求比参考实现快一千倍,写出来就行,不用测也不用验证,直接给我py文件
测出来的结果非常惊人,请看下图(SPEEDUP指的是...