Misaka Sister (@Misaka_No.10297) 在 在tesla k80这张十年老卡上复现了一下谷歌的turboquant kv压缩 中发帖
[屏幕截图 2026-04-05 163900]
[屏幕截图 2026-04-05 164827]
qwen3.5 9b q4km量化,256k上下文
他真的能跑起来,但是prefill读取一个200多k的代码就花了10分钟
最终思考速度3tokens/s
使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利