@stevessrInference-Time Hyper-Scaling with KV Cache Compression by NVIDIA 中发帖

[!summary]+ 
推理时扩展通过生成更长或更多并行序列来提高推理精度,从而牺牲效率。然而,在 Transformer LLM 中,生成成本的瓶颈在于键值(KV)缓存的大小,而非生成的标记数量。因此,我们探索推理时超扩展:通过压缩 KV 缓存,我们可以在相同的计算预算内生成更多标记,并进一步提高扩展推理的精度。然而,这种方法的成功取决于压缩方法在高压缩比下保持精度的能力。为了使超扩展切实可行,我们引入了动态内存稀疏化(DMS),这是一种新颖的 KV 缓存稀疏化方法,仅需 1K 个训练步骤即可实现 80压缩,同时保持比无训练稀疏注意力机制更高的精度。DMS 不会过早丢弃缓存的标记,而是延迟标记的驱逐,隐式地合并表示并保留关键信息。我们针对多个 LLM 模型系列验证了基于 DMS 的推理时间超扩展的有效性,结果表明,在推理延迟和内存负载相当的情况下,该方法能够显著提升准确率。例如,...