JerryLiu369 在【Fable测试】真的吓到了，贡献一个数据点中发帖大模型kernel优化领域存在一个benchmark叫FlashInfer-Bench，其中有一道题目是Sparse_Attention算子，这是DeepSeek等现代大模型中很重要的一个构件： FlashInfer-Bench-Sparse-Attention 今天用cursor中的Fable 5 max thinking试了一下无Agent环境单次生成（不测试/迭代，不然实在烧不起QAQ），prompt如下： dsa_sparse_attention_h16_ckv512_kpe64_topk2048_ps64.json对这个算子，请给我写一个在本机a800卡能运行的，单py文件+triton/cuda extension形式的高性能kernel实现，要求比参考实现快一千倍，写出来就行，不用测也不用验证，直接给我py文件测出来的结果非常惊人，请看下图（SPEEDUP指的是...

JerryLiu369 在【Fable测试】真的吓到了，贡献一个数据点中发帖

大模型kernel优化领域存在一个benchmark叫FlashInfer-Bench，其中有一道题目是Sparse_Attention算子，这是DeepSeek等现代大模型中很重要的一个构件： FlashInfer-Bench-Sparse-Attention 

今天用cursor中的Fable 5 max thinking试了一下无Agent环境单次生成（不测试/迭代，不然实在烧不起QAQ），prompt如下： 
dsa_sparse_attention_h16_ckv512_kpe64_topk2048_ps64.json
对这个算子，请给我写一个在本机a800卡能运行的，单py文件+triton/cuda extension形式的高性能kernel实现，要求比参考实现快一千倍，写出来就行，不用测也不用验证，直接给我py文件


测出来的结果非常惊人，请看下图（SPEEDUP指的是...