精神点儿别丢份儿 (@Anano) 在迈向无限上下文！仅710万参数的「记忆压缩器」：STILL毫秒内8倍压缩KV缓存中发帖AI 模型推理平台 Baseten 的模型开发团队发布 STILL，一种用单次前向传播将 LLM 的 KV 缓存（模型推理时存储的上下文信息）压缩 8 倍的方法

精神点儿别丢份儿 (@Anano) 在迈向无限上下文！仅710万参数的「记忆压缩器」：STILL毫秒内8倍压缩KV缓存中发帖

AI 模型推理平台 Baseten 的模型开发团队发布 STILL，一种用单次前向传播将 LLM 的 KV 缓存（模型推理时存储的上下文信息）压缩 8 倍的方法。压缩 8K token 上下文仅需毫秒，抽取式问答准确率保留 85% 以上。此前的压缩方法质量不差，但每段新上下文都要做独立优化：MIT 的 Attention Matching 需秒到分钟，斯坦福的 Cartridges 需分钟到小时。STILL 的思路类似稀疏自编码器（SAE）对字典学习的摊销：不再为每段上下文单独优化，而是学一个固定编码器一次前向传播搞定，速度快了几个数量级。 
 [image] 
架构是一个 Perceiver 瓶颈网络，在冻结 LLM 的每一层独立运作。一组可学习的查询向量通过交叉注意力「询问」完整 KV 缓存，经自注意力互相协调以避免信息重复捕获，最后投射出紧凑的键、值和偏置。LLM 可以像注意真实上下...