AppLoad谷歌研究院推出TurboQuant压缩算法,把AI推理过程中最吃内存的KV cache压缩至少6倍,精度零损失。 中发帖

[image] 
谷歌表示,TurboQuant除了可以用在Gemini等大模型上,同时还能大幅提升语义搜索的效率,让谷歌级别的万亿级向量索引查询更快、成本更低。不过TurboQuant目前还只是一个实验室成果,尚未大规模部署。
论文地址:

参考链接:https://x.com/eastdakota/status/2036827179150168182?s=20