AppLoad 在谷歌研究院推出TurboQuant压缩算法，把AI推理过程中最吃内存的KV cache压缩至少6倍，精度零损失

AppLoad 在谷歌研究院推出TurboQuant压缩算法，把AI推理过程中最吃内存的KV cache压缩至少6倍，精度零损失。中发帖

[image] 
谷歌表示，TurboQuant除了可以用在Gemini等大模型上，同时还能大幅提升语义搜索的效率，让谷歌级别的万亿级向量索引查询更快、成本更低。不过TurboQuant目前还只是一个实验室成果，尚未大规模部署。 
论文地址： 

参考链接：https://x.com/eastdakota/status/2036827179150168182?s=20