@stevessr 在 Inference-Time Hyper-Scaling with KV Cache Compression by NVIDIA 中发帖[!summary]+ 推理时扩展通过生成更长或更多并行序列来提高推理精度，从而牺牲效率

@stevessr 在 Inference-Time Hyper-Scaling with KV Cache Compression by NVIDIA 中发帖

[!summary]+ 
推理时扩展通过生成更长或更多并行序列来提高推理精度，从而牺牲效率。然而，在 Transformer LLM 中，生成成本的瓶颈在于键值（KV）缓存的大小，而非生成的标记数量。因此，我们探索推理时超扩展：通过压缩 KV 缓存，我们可以在相同的计算预算内生成更多标记，并进一步提高扩展推理的精度。然而，这种方法的成功取决于压缩方法在高压缩比下保持精度的能力。为了使超扩展切实可行，我们引入了动态内存稀疏化（DMS），这是一种新颖的 KV 缓存稀疏化方法，仅需 1K 个训练步骤即可实现 80压缩，同时保持比无训练稀疏注意力机制更高的精度。DMS 不会过早丢弃缓存的标记，而是延迟标记的驱逐，隐式地合并表示并保留关键信息。我们针对多个 LLM 模型系列验证了基于 DMS 的推理时间超扩展的有效性，结果表明，在推理延迟和内存负载相当的情况下，该方法能够显著提升准确率。例如，...