@josenlou 在 本地跑模型的福音-Kimi-Linear-48B-A3B最低只需要4.2G显存 中发帖
刚刚在推上看到的
ymcki给Kimi-Linear-48B-A3B 加上了MLA KV cache
实测下来 1M上下文 F16 KV cache 显存占用从140G降到15G。
如果显存少一点的用户可以选择
q8_0: 7.9GB
q5_1: 5.6GB
q4_0: 4.2GB
有兴趣可以玩看看