精神点儿 别丢份儿 (@Anano)迈向无限上下文!仅710万参数的「记忆压缩器」:STILL毫秒内8倍压缩KV缓存 中发帖

AI 模型推理平台 Baseten 的模型开发团队发布 STILL,一种用单次前向传播将 LLM 的 KV 缓存(模型推理时存储的上下文信息)压缩 8 倍的方法。压缩 8K token 上下文仅需毫秒,抽取式问答准确率保留 85% 以上。此前的压缩方法质量不差,但每段新上下文都要做独立优化:MIT 的 Attention Matching 需秒到分钟,斯坦福的 Cartridges 需分钟到小时。STILL 的思路类似稀疏自编码器(SAE)对字典学习的摊销:不再为每段上下文单独优化,而是学一个固定编码器一次前向传播搞定,速度快了几个数量级。 
[image]
架构是一个 Perceiver 瓶颈网络,在冻结 LLM 的每一层独立运作。一组可学习的查询向量通过交叉注意力「询问」完整 KV 缓存,经自注意力互相协调以避免信息重复捕获,最后投射出紧凑的键、值和偏置。LLM 可以像注意真实上下...