Misaka Sister (@Misaka_No.10297) 在在tesla k80这张十年老卡上复现了一下谷歌的turboquant kv压缩中发帖[屏幕截图 2026-04-05 163900] [屏幕截图 2026-04-05 164827] qwen3.5 9b q4km量化，256k上下文他真的能跑起来，但是prefill读取一个200多k的代码就花了10分钟最终思考速度3tokens/s 使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利

Misaka Sister (@Misaka_No.10297) 在在tesla k80这张十年老卡上复现了一下谷歌的turboquant kv压缩中发帖

[屏幕截图 2026-04-05 163900] 
 [屏幕截图 2026-04-05 164827] 
qwen3.5 9b q4km量化，256k上下文 
他真的能跑起来，但是prefill读取一个200多k的代码就花了10分钟 
最终思考速度3tokens/s 
使用了tom那个魔改llama.cpp,整个编译过程出乎意料的顺利